Back to : mathematical-statistics
Contents

Parametric Inference

λ‹€μŒκ³Ό 같은 문제λ₯Ό μƒκ°ν•©λ‹ˆλ‹€.

Problem : Parametric Inference
데이터 $x_1, x_2, \dots x_n$ 이 있고, 이듀이 μ–΄λ–€ 뢄포 $f(x ; \theta)$ λ‘œλΆ€ν„° μΆ”μΆœλ˜μ—ˆμŒμ„ μ•Œκ³  μžˆλ‹€. μ΄λ•Œ, $x_1, \dots x_n$ μœΌλ‘œλΆ€ν„° $\theta$λ₯Ό μΆ”μΈ‘ν•˜κ³  μ‹Άλ‹€.

예λ₯Ό λ“€μ–΄, λ‹€μŒκ³Ό 같은 데이터λ₯Ό μ–΄λ–€ μ •κ·œ 뢄포 $\mathcal{N}(\mu, \sigma^2)$ λ‘œλΆ€ν„° μΆ”μΆœν–ˆλ‹€κ³  κ°€μ •ν•˜κ² μŠ΅λ‹ˆλ‹€.

[ 6.52615303, 12.4042103 , 12.71258848, 14.6846982 , 12.88396983,
  7.65825908, 10.2504715 ,  9.01303742, 16.79015299, 10.74596275,
  12.08337416,  5.09596278,  6.13636642, 14.98837882, 17.40270976,
  11.49500769,  9.77796779, 11.61802914, 15.90435845,  8.1379665 ]

μ΄λ•Œ, μš°λ¦¬λŠ” μž…λ ₯이 μ •κ·œλΆ„ν¬λ₯Ό 따름은 μ•Œκ³  μžˆμœΌλ‚˜, $\mu$ 와 $\sigma$λŠ” λͺ¨λ¦…λ‹ˆλ‹€. λ°μ΄ν„°λ‘œλΆ€ν„° 거꾸둜 unknown parameter $\mu, \sigma$의 값을 μ–΄λ–»κ²Œ μΆ”λ‘ ν•˜λ©΄ μ’‹μ„κΉŒμš”? 참고둜, 정닡은 평균 12, ν‘œμ€€νŽΈμ°¨ 3 (λΆ„μ‚° 9)μž…λ‹ˆλ‹€. κΈ€ λ§ˆλ¬΄λ¦¬μ—μ„œ 이 정보λ₯Ό ν™œμš©ν•˜μ§€ μ•Šκ³  이λ₯Ό μΆ”λ‘ ν•  κ²ƒμž…λ‹ˆλ‹€.

Likelihood

Likelihood (λ²ˆμ—­μ–΄λŠ” β€˜μš°λ„β€™ μž…λ‹ˆλ‹€. μ™œμΈμ§€λŠ” λͺ¨λ₯΄κ² μŠ΅λ‹ˆλ‹€) $L(\theta \di x)$ λž€, λ‹€μŒκ³Ό 같이 μ •μ˜ν•©λ‹ˆλ‹€. \(L(\theta \di x) = \P(X = x; \theta)\) 즉, unknown parameter $\theta$κ°€ μ •ν™•νžˆ $\hat{\theta}$ 일 λ•Œ, $X = x$ 일 ν™•λ₯ μ„ $L(x, \hat{\theta})$둜 μ •μ˜ν•œλ‹€λŠ” μ˜λ―Έκ°€ λ©λ‹ˆλ‹€.

데이터 $N$κ°œκ°€ μ£Όμ–΄μ§ˆ λ•Œ, 이듀은 ν™•λ₯ μ΄κΈ° λ•Œλ¬Έμ—, ν™•λ₯ μ˜ 곱을 생각함이 μžμ—°μŠ€λŸ½μŠ΅λ‹ˆλ‹€. \(\mathcal{L}(\theta) = \prod_{i = 1}^{N} L(\theta \di x_i)\) 즉, $\mathcal{L}(\theta)$λ₯Ό μœ„ μ˜ˆμ‹œμ— μ μš©ν•˜λ©΄, $\mathcal{L}(\mu=2, \sigma=1)$ μ΄λΌλŠ” 값은 β€œν‰κ· μ΄ 2, ν‘œμ€€νŽΈμ°¨κ°€ 1인 μ •κ·œλΆ„ν¬μ—μ„œ μƒ˜ν”Œ 20개λ₯Ό μΆ”μΆœν–ˆμ„ λ•Œ μš°λ¦¬κ°€ μ •ν™•νžˆ μœ„μ™€ 같은 μƒ˜ν”Œμ„ 얻을 ν™•λ₯ β€ 이라고 해석할 수 μžˆμŠ΅λ‹ˆλ‹€.

μ§κ΄€μ μœΌλ‘œ, 이 ν™•λ₯ μ„ maximizeν•˜λŠ” 것이 κ°€μž₯ μžμ—°μŠ€λŸ¬μš΄ λ°©ν–₯μž„μ„ μ•Œ 수 μžˆμŠ΅λ‹ˆλ‹€. β€œParameterκ°€ $\theta$일 λ•Œ 데이터가 μ΄λ ‡κ²Œ 생겼을 κ°€λŠ₯성” 이 높은 $\theta$λ₯Ό μ°ΎλŠ” 것이 κ³§ β€œλ°μ΄ν„°κ°€ μ΄λ ‡κ²Œ λ‚˜μ™”μ„ λ•Œ parameterκ°€ $\theta$일 κ°€λŠ₯성” 을 λ†’μ—¬μ€€λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€. μ΄λŠ” μš°λ¦¬κ°€ β€œ$\theta$에 λŒ€ν•΄ 사전에 μ•Œκ³  μžˆλŠ” 정보가 없닀면” κ°€μž₯ 합리적인 κ²ƒμ²˜λŸΌ λ³΄μž…λ‹ˆλ‹€ (λ¬Όλ‘  사전에 $\theta$에 λŒ€ν•œ prior 정보가 μžˆλ‹€λ©΄ 이 가정이 ν•©λ‹Ήν•˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€)

참고둜, ν›„μžλŠ” ν™•λ₯ λΆ„포가 λ§žμ§€λ§Œ ($\theta$의 뢄포), μ „μžλŠ” 사싀 ν™•λ₯ λΆ„ν¬λŠ” μ•„λ‹ˆλΌλŠ” μ μž…λ‹ˆλ‹€. (이 값을 ν™•λ₯ λ‘œ μ˜€ν•΄ν•΄μ„œ λ°œμƒν•˜λŠ” 였λ₯˜λ₯Ό Prosecutor’s fallacy 라고 λΆ€λ¦…λ‹ˆλ‹€.)

Maximum Likelihood Estimation : μ˜ˆμ‹œ

이제, μœ„ likelihood function \(\mathcal{L}(\theta) = \prod_{i = 1}^{N} L(\theta \di x_i)\) 이λ₯Ό maximizeν•˜λŠ” $\theta$λ₯Ό μ°ΎλŠ” 것을 Maximum Likelihood Estimation 이라고 λΆ€λ¦…λ‹ˆλ‹€.

곱을 μ΅œμ†Œν™”ν•˜λŠ” 것은 κ³„μ‚°μ μœΌλ‘œ μƒλ‹Ήνžˆ μ–΄λ ΅μŠ΅λ‹ˆλ‹€.1 λ”°λΌμ„œ, μ‹€μ œ computationμ—μ„œλŠ” log-likelihoodλ₯Ό μƒκ°ν•©λ‹ˆλ‹€. \(\log \mathcal{L}(\theta) = \sum_{i = 1}^{N} \log L(\theta \di x_i)\)

λ‹€μ‹œ μ •κ·œλΆ„ν¬μ˜ μΌ€μ΄μŠ€λ‘œ λŒμ•„κ°€ λ³΄κ² μŠ΅λ‹ˆλ‹€. λ¨Όμ €, Likelihood 계산은 λ‹€μŒκ³Ό 같이 κ°€λŠ₯ν•©λ‹ˆλ‹€. \(L((\mu, \sigma^2) \di x_i) = \frac{1}{\sigma \sqrt{2\pi}}\exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)\) λ”°λΌμ„œ, μš°λ¦¬λŠ” λ‹€μŒμ„ μ΅œλŒ€ν™”ν•˜κ³ μž ν•©λ‹ˆλ‹€. \(\underset{\mu \in \R, \sigma \in \R}{\maximize} \log \mathcal{L}(\mu, \sigma^2) = \sum_{i = 1}^{N} \left(- \log \sigma - \log \sqrt{2\pi} -\frac{(x_i-\mu)^2}{2\sigma^2}\right)\) 그런데, $\log \sqrt{2\pi}$ λŠ” μ–΄μ°¨ν”Ό $\mu$, $\sigma$λž‘ 아무 관련이 μ—†κ³ , λΆ€ν˜Έλ₯Ό λ°”κΎΈλ©΄ μ΅œλŒ€ν™”κ°€ μ΅œμ†Œν™”κ°€ λ˜λ―€λ‘œ, 이 λ¬Έμ œλŠ” λ‹€μŒκ³Ό 같이 λ‹€μ‹œ μ“Έ 수 μžˆμŠ΅λ‹ˆλ‹€. \(\underset{\mu \in \R, \sigma \in \R}{\minimize} - \log \mathcal{L}(\mu, \sigma^2) = N \log \sigma + \frac{1}{2\sigma^2} \sum_{i = 1}^{N} (x_i - \mu)^2\)

이λ₯Ό μ΅œμ†Œν™”ν•˜λŠ” 것은 κ·Έλƒ₯ λ‹€λ³€μˆ˜ν•¨μˆ˜ μ΅œμ ν™” 문제이고, νŽΈλ―ΈλΆ„μ„ 톡해 극값을 찾을 수 μžˆμŠ΅λ‹ˆλ‹€. νŽΈν•˜κ²Œ ν•¨μˆ˜λ₯Ό $\ell$ 이라고 μ“°λ©΄, \(\pdv{\ell}{\mu} = \sum_{i = 1}^{N} 2(x_i - \mu) = 0\) λ”°λΌμ„œ, $\mu = \frac{1}{N} \sum_{i = 1}^{N} x_i$ 일 λ•Œ $\pdv{\ell}{\mu} = 0$ μž…λ‹ˆλ‹€. 즉 β€œμ›λž˜ λΆ„ν¬μ˜ 평균값에 λŒ€ν•œ 합리적 μΆ”μ • 치둜 ν‘œλ³Έν‰κ·  을 μ‚¬μš©ν•  수 μžˆμŒβ€μ„ μ˜λ―Έν•©λ‹ˆλ‹€. 2

같은 λ°©λ²•μœΌλ‘œ, $\sigma$에 λŒ€ν•΄μ„œλ„ λ°˜λ³΅ν•©λ‹ˆλ‹€. \(\pdv{\ell}{\sigma} = \frac{N}{\sigma} - \frac{1}{\sigma^3} \sum_{i = 1}^{N} (x_i - \mu)^2 = 0\) \(\sigma^2 = \frac{1}{N}\sum_{i = 1}^{N} (x_i - \mu)^2\) β€œμ›λž˜ λΆ„ν¬μ˜ 뢄산에 λŒ€ν•œ 합리적 μΆ”μ • (MLE) 치둜 ν‘œλ³ΈλΆ„μ‚° 을 μ‚¬μš©ν•  수 μžˆμŒβ€μ„ μ˜λ―Έν•©λ‹ˆλ‹€.

μœ„ 데이터에 이λ₯Ό μ μš©ν•˜λ©΄, ν‘œλ³Έν‰κ·  11.3κ³Ό ν‘œλ³ΈλΆ„μ‚° 12.01을 μ–»μŠ΅λ‹ˆλ‹€. 데이터가 적어 μ •ν™•ν•˜μ§€λŠ” μ•Šμ§€λ§Œ, 평균에 λŒ€ν•΄ ν‘œλ³Έν‰κ· μ„, 뢄산에 λŒ€ν•΄ ν‘œλ³ΈλΆ„μ‚°μ„ μ“°λŠ” 것은 합리적인듯 λ³΄μž…λ‹ˆλ‹€.

Further Discussion

μ΅œλŒ€ μš°λ„ μΆ”μ • (Maximum Likelihood Estimation) 은 λΆ„λͺ… 듣기에 합리적이어 보이고, μ‹€μ œλ‘œλ„ κ°€μž₯ 많이 ν™œμš©λ˜λŠ” μΆ”μ • λ°©λ²•μž…λ‹ˆλ‹€.

κ·ΈλŸ¬λ‚˜, μ™„λ²½ν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€. λŒ€ν‘œμ μœΌλ‘œ 방금 λ³Έ μ •κ·œλΆ„ν¬μ˜ λΆ„μ‚° μΆ”μ •μ—μ„œ MLEλŠ” unbiasednessλ₯Ό λ§Œμ‘±ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 이게 무슨 말이냐면…

  • μš°λ¦¬κ°€ 같은 λΆ„ν¬μ—μ„œ μΆ”μΆœν•˜κ³ , 데이터λ₯Ό 톡해 inference ν•˜λŠ” 행동을 방금 ν•œ 번 ν–ˆμŠ΅λ‹ˆλ‹€.
  • λ§Œμ•½ 이 과정을 $K$번 λ°˜λ³΅ν•  수 μžˆλ‹€λ©΄, 즉 뢄산을 ν•œλ²ˆ μΆ”μ •ν•˜λŠ”κ²Œ μ•„λ‹ˆλΌ, $N$개의 데이터λ₯Ό λͺ¨μ•„μ„œ κ·Έλ‘œλΆ€ν„° 뢄산을 μΆ”μ •ν•˜λŠ” 행동 자체λ₯Ό $K$번 ν•΄μ„œ $\sigma_1 \dots \sigma_K$ λ₯Ό λ§Œλ“ λ‹€λ©΄?
  • μ§κ΄€μ μœΌλ‘œ μš°λ¦¬λŠ” $\E[\hat{\sigma}] = \sigma$, 즉 이 λ°μ΄ν„°λ‘œλΆ€ν„° 얻은 μΆ”μ • $\sigma$ λ“€μ˜ κΈ°λŒ“κ°’μ΄ μ •ν™•νžˆ μ›λž˜μ˜ 뢄산이 되기λ₯Ό λ°”λžλ‹ˆλ‹€.
  • κ·ΈλŸ¬λ‚˜, 계산해보면 κ·Έλ ‡μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. ν˜Ήμ‹œ μš°λ¦¬κ°€ κ³ λ“±ν•™κ΅λ‚˜ λŒ€ν•™ 1ν•™λ…„ ν™•λ₯ κ³Ό ν†΅κ³„μ—μ„œ ν‘œλ³ΈλΆ„μ‚°μœΌλ‘œλΆ€ν„° λͺ¨λΆ„산을 μΆ”μ •ν•  λ•Œ $N$ 이 μ•„λ‹Œ $N-1$둜 λ‚˜λˆˆ 것을 κΈ°μ–΅ν•˜μ‹œλ‚˜μš”? \(\hat{\sigma} = \frac{1}{N - 1} \sum_{i = 1}^{N} (x_i - \mu)^2\) 이 $N-1$ 이 λ°”λ‘œ β€˜κΈ°λŒ“κ°’μ„ μ›λž˜ λΆ„μ‚°κ³Ό κ°™κ²Œ ν•˜λŠ”β€™, 즉 β€˜νŽΈν–₯ μ—†λŠ”β€™ 좔정을 μœ„ν•œ λ³΄μ •μž…λ‹ˆλ‹€.
    μ™œ $N-1$이어야 ν•˜λŠ”μ§€λŠ” λ‚˜μ€‘μ— λ”°λ‘œ λ‹€λ£° κΈ°νšŒκ°€ μžˆμ„ 것 κ°™μŠ΅λ‹ˆλ‹€.
  • 즉, MLE μΆ”μ •μΉ˜κ°€ unbiasedλΌλŠ” 보μž₯은 μ—†μŠ΅λ‹ˆλ‹€.
  • κ·ΈλŸ¬λ‚˜, MLE에 κ΄€ν•΄μ„œλŠ” λ‹€μ–‘ν•œ 쑰건 ν•˜μ—μ„œ λ‹€μ–‘ν•œ μˆ˜λ ΄μ„±μ„ 보μž₯ν•˜λŠ” 정리듀이 μ•Œλ €μ Έ μžˆμŠ΅λ‹ˆλ‹€.

  1. λ’€ 계산 κ³Όμ •μ—μ„œ λ³Ό 수 μžˆλ“―μ΄, exponential function듀을 날릴 수 μžˆμŠ΅λ‹ˆλ‹€. Computationalν•˜κ²ŒλŠ”, floating point의 ν•œκ³„ λ•Œλ¬Έμ— 0.1의 ν™•λ₯ μ„ 100번 κ³±ν•˜λŠ” 것은 λΆˆκ°€λŠ₯ν•˜μ§€λ§Œ, $100 \log 0.1$ 을 κ³„μ‚°ν•˜λŠ” 것은 아무 λ¬Έμ œκ°€ μ—†λ‹€λŠ” μ΄μœ λ„ μžˆμŠ΅λ‹ˆλ‹€. ↩

  2. Obviously, 사싀은 이계미뢄 (Hessian)을 톡해 증감을 νŒλ³„ν•  ν•„μš”κ°€ μžˆμœΌλ‚˜β€¦ 이뢀뢄은 직접 계산을 톡해 μˆ˜ν–‰κ°€λŠ₯ν•˜λ―€λ‘œ λ„˜μ–΄κ°€κ² μŠ΅λ‹ˆλ‹€. ↩