Back to : mathematical-statistics
Contents

## Parametric Inference

λ€μκ³Ό κ°μ λ¬Έμ λ₯Ό μκ°ν©λλ€.

Problem : Parametric Inference
λ°μ΄ν° $x_1, x_2, \dots x_n$ μ΄ μκ³ , μ΄λ€μ΄ μ΄λ€ λΆν¬ $f(x ; \theta)$ λ‘λΆν° μΆμΆλμμμ μκ³  μλ€. μ΄λ, $x_1, \dots x_n$ μΌλ‘λΆν° $\theta$λ₯Ό μΆμΈ‘νκ³  μΆλ€.

μλ₯Ό λ€μ΄, λ€μκ³Ό κ°μ λ°μ΄ν°λ₯Ό μ΄λ€ μ κ· λΆν¬ $\mathcal{N}(\mu, \sigma^2)$ λ‘λΆν° μΆμΆνλ€κ³  κ°μ νκ² μ΅λλ€.

[ 6.52615303, 12.4042103 , 12.71258848, 14.6846982 , 12.88396983,
7.65825908, 10.2504715 ,  9.01303742, 16.79015299, 10.74596275,
12.08337416,  5.09596278,  6.13636642, 14.98837882, 17.40270976,
11.49500769,  9.77796779, 11.61802914, 15.90435845,  8.1379665 ]


μ΄λ, μ°λ¦¬λ μλ ₯μ΄ μ κ·λΆν¬λ₯Ό λ°λ¦μ μκ³  μμΌλ, $\mu$ μ $\sigma$λ λͺ¨λ¦λλ€. λ°μ΄ν°λ‘λΆν° κ±°κΎΈλ‘ unknown parameter $\mu, \sigma$μ κ°μ μ΄λ»κ² μΆλ‘ νλ©΄ μ’μκΉμ? μ°Έκ³ λ‘, μ λ΅μ νκ·  12, νμ€νΈμ°¨ 3 (λΆμ° 9)μλλ€. κΈ λ§λ¬΄λ¦¬μμ μ΄ μ λ³΄λ₯Ό νμ©νμ§ μκ³  μ΄λ₯Ό μΆλ‘ ν  κ²μλλ€.

## Likelihood

Likelihood (λ²μ­μ΄λ βμ°λβ μλλ€. μμΈμ§λ λͺ¨λ₯΄κ² μ΅λλ€) $L(\theta \di x)$ λ, λ€μκ³Ό κ°μ΄ μ μν©λλ€. $$L(\theta \di x) = \P(X = x; \theta)$$ μ¦, unknown parameter $\theta$κ° μ νν $\hat{\theta}$ μΌ λ, $X = x$ μΌ νλ₯ μ $L(x, \hat{\theta})$λ‘ μ μνλ€λ μλ―Έκ° λ©λλ€.

λ°μ΄ν° $N$κ°κ° μ£Όμ΄μ§ λ, μ΄λ€μ νλ₯ μ΄κΈ° λλ¬Έμ, νλ₯ μ κ³±μ μκ°ν¨μ΄ μμ°μ€λ½μ΅λλ€. $$\mathcal{L}(\theta) = \prod_{i = 1}^{N} L(\theta \di x_i)$$ μ¦, $\mathcal{L}(\theta)$λ₯Ό μ μμμ μ μ©νλ©΄, $\mathcal{L}(\mu=2, \sigma=1)$ μ΄λΌλ κ°μ βνκ· μ΄ 2, νμ€νΈμ°¨κ° 1μΈ μ κ·λΆν¬μμ μν 20κ°λ₯Ό μΆμΆνμ λ μ°λ¦¬κ° μ νν μμ κ°μ μνμ μ»μ νλ₯ β μ΄λΌκ³  ν΄μν  μ μμ΅λλ€.

μ§κ΄μ μΌλ‘, μ΄ νλ₯ μ maximizeνλ κ²μ΄ κ°μ₯ μμ°μ€λ¬μ΄ λ°©ν₯μμ μ μ μμ΅λλ€. βParameterκ° $\theta$μΌ λ λ°μ΄ν°κ° μ΄λ κ² μκ²Όμ κ°λ₯μ±β μ΄ λμ $\theta$λ₯Ό μ°Ύλ κ²μ΄ κ³§ βλ°μ΄ν°κ° μ΄λ κ² λμμ λ parameterκ° $\theta$μΌ κ°λ₯μ±β μ λμ¬μ€λ€λ κ²μλλ€. μ΄λ μ°λ¦¬κ° β$\theta$μ λν΄ μ¬μ μ μκ³  μλ μ λ³΄κ° μλ€λ©΄β κ°μ₯ ν©λ¦¬μ μΈ κ²μ²λΌ λ³΄μλλ€ (λ¬Όλ‘  μ¬μ μ $\theta$μ λν prior μ λ³΄κ° μλ€λ©΄ μ΄ κ°μ μ΄ ν©λΉνμ§ μμ μ μμ΅λλ€)

μ°Έκ³ λ‘, νμλ νλ₯ λΆν¬κ° λ§μ§λ§ ($\theta$μ λΆν¬), μ μλ μ¬μ€ νλ₯ λΆν¬λ μλλΌλ μ μλλ€. (μ΄ κ°μ νλ₯ λ‘ μ€ν΄ν΄μ λ°μνλ μ€λ₯λ₯Ό Prosecutorβs fallacy λΌκ³  λΆλ¦λλ€.)

## Maximum Likelihood Estimation : μμ

μ΄μ , μ likelihood function $$\mathcal{L}(\theta) = \prod_{i = 1}^{N} L(\theta \di x_i)$$ μ΄λ₯Ό maximizeνλ $\theta$λ₯Ό μ°Ύλ κ²μ Maximum Likelihood Estimation μ΄λΌκ³  λΆλ¦λλ€.

κ³±μ μ΅μννλ κ²μ κ³μ°μ μΌλ‘ μλΉν μ΄λ ΅μ΅λλ€.1 λ°λΌμ, μ€μ  computationμμλ log-likelihoodλ₯Ό μκ°ν©λλ€. $$\log \mathcal{L}(\theta) = \sum_{i = 1}^{N} \log L(\theta \di x_i)$$

λ€μ μ κ·λΆν¬μ μΌμ΄μ€λ‘ λμκ° λ³΄κ² μ΅λλ€. λ¨Όμ , Likelihood κ³μ°μ λ€μκ³Ό κ°μ΄ κ°λ₯ν©λλ€. $$L((\mu, \sigma^2) \di x_i) = \frac{1}{\sigma \sqrt{2\pi}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)$$ λ°λΌμ, μ°λ¦¬λ λ€μμ μ΅λννκ³ μ ν©λλ€. $$\underset{\mu \in \R, \sigma \in \R}{\maximize} \log \mathcal{L}(\mu, \sigma^2) = \sum_{i = 1}^{N} \left(- \log \sigma - \log \sqrt{2\pi} -\frac{(x_i-\mu)^2}{2\sigma^2}\right)$$ κ·Έλ°λ°, $\log \sqrt{2\pi}$ λ μ΄μ°¨νΌ $\mu$, $\sigma$λ μλ¬΄ κ΄λ ¨μ΄ μκ³ , λΆνΈλ₯Ό λ°κΎΈλ©΄ μ΅λνκ° μ΅μνκ° λλ―λ‘, μ΄ λ¬Έμ λ λ€μκ³Ό κ°μ΄ λ€μ μΈ μ μμ΅λλ€. $$\underset{\mu \in \R, \sigma \in \R}{\minimize} - \log \mathcal{L}(\mu, \sigma^2) = N \log \sigma + \frac{1}{2\sigma^2} \sum_{i = 1}^{N} (x_i - \mu)^2$$

μ΄λ₯Ό μ΅μννλ κ²μ κ·Έλ₯ λ€λ³μν¨μ μ΅μ ν λ¬Έμ μ΄κ³ , νΈλ―ΈλΆμ ν΅ν΄ κ·Ήκ°μ μ°Ύμ μ μμ΅λλ€. νΈνκ² ν¨μλ₯Ό $\ell$ μ΄λΌκ³  μ°λ©΄, $$\pdv{\ell}{\mu} = \sum_{i = 1}^{N} 2(x_i - \mu) = 0$$ λ°λΌμ, $\mu = \frac{1}{N} \sum_{i = 1}^{N} x_i$ μΌ λ $\pdv{\ell}{\mu} = 0$ μλλ€. μ¦ βμλ λΆν¬μ νκ· κ°μ λν ν©λ¦¬μ  μΆμ  μΉλ‘ νλ³Ένκ·  μ μ¬μ©ν  μ μμβμ μλ―Έν©λλ€. 2

κ°μ λ°©λ²μΌλ‘, $\sigma$μ λν΄μλ λ°λ³΅ν©λλ€. $$\pdv{\ell}{\sigma} = \frac{N}{\sigma} - \frac{1}{\sigma^3} \sum_{i = 1}^{N} (x_i - \mu)^2 = 0$$ $$\sigma^2 = \frac{1}{N}\sum_{i = 1}^{N} (x_i - \mu)^2$$ βμλ λΆν¬μ λΆμ°μ λν ν©λ¦¬μ  μΆμ  (MLE) μΉλ‘ νλ³ΈλΆμ° μ μ¬μ©ν  μ μμβμ μλ―Έν©λλ€.

μ λ°μ΄ν°μ μ΄λ₯Ό μ μ©νλ©΄, νλ³Ένκ·  11.3κ³Ό νλ³ΈλΆμ° 12.01μ μ»μ΅λλ€. λ°μ΄ν°κ° μ μ΄ μ ννμ§λ μμ§λ§, νκ· μ λν΄ νλ³Ένκ· μ, λΆμ°μ λν΄ νλ³ΈλΆμ°μ μ°λ κ²μ ν©λ¦¬μ μΈλ― λ³΄μλλ€.

## Further Discussion

μ΅λ μ°λ μΆμ  (Maximum Likelihood Estimation) μ λΆλͺ λ£κΈ°μ ν©λ¦¬μ μ΄μ΄ λ³΄μ΄κ³ , μ€μ λ‘λ κ°μ₯ λ§μ΄ νμ©λλ μΆμ  λ°©λ²μλλ€.

κ·Έλ¬λ, μλ²½νμ§λ μμ΅λλ€. λνμ μΌλ‘ λ°©κΈ λ³Έ μ κ·λΆν¬μ λΆμ° μΆμ μμ MLEλ unbiasednessλ₯Ό λ§μ‘±νμ§ μμ΅λλ€. μ΄κ² λ¬΄μ¨ λ§μ΄λλ©΄β¦

• μ°λ¦¬κ° κ°μ λΆν¬μμ μΆμΆνκ³ , λ°μ΄ν°λ₯Ό ν΅ν΄ inference νλ νλμ λ°©κΈ ν λ² νμ΅λλ€.
• λ§μ½ μ΄ κ³Όμ μ $K$λ² λ°λ³΅ν  μ μλ€λ©΄, μ¦ λΆμ°μ νλ² μΆμ νλκ² μλλΌ, $N$κ°μ λ°μ΄ν°λ₯Ό λͺ¨μμ κ·Έλ‘λΆν° λΆμ°μ μΆμ νλ νλ μμ²΄λ₯Ό $K$λ² ν΄μ $\sigma_1 \dots \sigma_K$ λ₯Ό λ§λ λ€λ©΄?
• μ§κ΄μ μΌλ‘ μ°λ¦¬λ $\E[\hat{\sigma}] = \sigma$, μ¦ μ΄ λ°μ΄ν°λ‘λΆν° μ»μ μΆμ  $\sigma$ λ€μ κΈ°λκ°μ΄ μ νν μλμ λΆμ°μ΄ λκΈ°λ₯Ό λ°λλλ€.
• κ·Έλ¬λ, κ³μ°ν΄λ³΄λ©΄ κ·Έλ μ§ μμ΅λλ€. νΉμ μ°λ¦¬κ° κ³ λ±νκ΅λ λν 1νλ νλ₯ κ³Ό ν΅κ³μμ νλ³ΈλΆμ°μΌλ‘λΆν° λͺ¨λΆμ°μ μΆμ ν  λ $N$ μ΄ μλ $N-1$λ‘ λλ κ²μ κΈ°μ΅νμλμ? $$\hat{\sigma} = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_i - \mu)^2$$ μ΄ $N-1$ μ΄ λ°λ‘ βκΈ°λκ°μ μλ λΆμ°κ³Ό κ°κ² νλβ, μ¦ βνΈν₯ μλβ μΆμ μ μν λ³΄μ μλλ€.
μ $N-1$μ΄μ΄μΌ νλμ§λ λμ€μ λ°λ‘ λ€λ£° κΈ°νκ° μμ κ² κ°μ΅λλ€.
• μ¦, MLE μΆμ μΉκ° unbiasedλΌλ λ³΄μ₯μ μμ΅λλ€.
• κ·Έλ¬λ, MLEμ κ΄ν΄μλ λ€μν μ‘°κ±΄ νμμ λ€μν μλ ΄μ±μ λ³΄μ₯νλ μ λ¦¬λ€μ΄ μλ €μ Έ μμ΅λλ€.

1. λ€ κ³μ° κ³Όμ μμ λ³Ό μ μλ―μ΄, exponential functionλ€μ λ λ¦΄ μ μμ΅λλ€. Computationalνκ²λ, floating pointμ νκ³ λλ¬Έμ 0.1μ νλ₯ μ 100λ² κ³±νλ κ²μ λΆκ°λ₯νμ§λ§, $100 \log 0.1$ μ κ³μ°νλ κ²μ μλ¬΄ λ¬Έμ κ° μλ€λ μ΄μ λ μμ΅λλ€.Β β©

2. Obviously, μ¬μ€μ μ΄κ³λ―ΈλΆ (Hessian)μ ν΅ν΄ μ¦κ°μ νλ³ν  νμκ° μμΌλβ¦ μ΄λΆλΆμ μ§μ  κ³μ°μ ν΅ν΄ μνκ°λ₯νλ―λ‘ λμ΄κ°κ² μ΅λλ€.Β β©