Back to : mathematical-statistics
Contents

μ΄λ³€μˆ˜ ν™•λ₯ λ²‘ν„°

λ•Œλ‘œλŠ” ν™•λ₯  λ³€μˆ˜κ°€ ν•˜λ‚˜κ°€ μ•„λ‹ˆλΌ μ—¬λŸ¬ 개일 μˆ˜λ„ μžˆμŠ΅λ‹ˆλ‹€. μš°μ„ μ€ 2개인 경우λ₯Ό μƒκ°ν•©λ‹ˆλ‹€. μ •μ˜ : 이차원 ν™•λ₯ λ³€μˆ˜μ˜ κ²°ν•© ν™•λ₯ λ°€λ„ν•¨μˆ˜
두 ν™•λ₯ λ³€μˆ˜ $X, Y$의 μˆœμ„œμŒμ΄ κ°€μ§ˆ 수 μžˆλŠ” 집합에 λŒ€ν•΄, κ·Έ μˆœμ„œμŒμ„ κ°€μ§ˆ ν™•λ₯  (ν™•λ₯ λ°€λ„) 의 값을 λŒ€μ‘μ‹œν‚€λŠ” ν•¨μˆ˜ $f$λ₯Ό 이차원 ν™•λ₯ λ³€μˆ˜μ˜ (κ²°ν•©) ν™•λ₯ λ°€λ„ν•¨μˆ˜λΌκ³  μ •μ˜ν•œλ‹€.
μ΄λ•Œ, ν™•λ₯ λ³€μˆ˜κ°€ μ‹€μˆ˜μΌ λ•Œμ™€ 거의 λ˜‘κ°™μ΄ λ‹€μŒμ˜ μ„±μ§ˆμ΄ μ„±λ¦½ν•©λ‹ˆλ‹€.

  • $f(x, y) \geq 0$
  • $\displaystyle\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \dd{y} \dd{x} = 1$
  • $\displaystyle\int_{a}^{b} \int_{c}^{d} f(x, y) \dd{y} \dd{x} = \P(a \leq X \leq b, c \leq Y \leq d)$

사싀은, 이 μ λΆ„μ˜ μ—„λ°€ν•œ μ •μ˜λŠ” 이차원 λ¬΄ν•œμ†Œ μœ„μ—μ„œ μ •μ˜ν•΄μ•Ό ν•˜λ©° $\dd{(x, y)}$ λ₯Ό $\dd{y}\dd{x}$ λ˜λŠ” $\dd{x}\dd{y}$ ν˜•νƒœλ‘œ 계산할 수 μžˆλ‹€λŠ” 보μž₯도 μ›λž˜λŠ” μ—†μŠ΅λ‹ˆλ‹€. 이것이 κ°€λŠ₯ν•˜λ‹€λŠ” 것은 Fubini-Tonelli 정리 에 μ˜ν•΄ μ–»λŠ” κ²°κ³Όμ΄μ§€λ§Œ, μš°μ„ μ€ 이뢀뢄은 λ„˜μ–΄κ°€κ² μŠ΅λ‹ˆλ‹€. μ•žμœΌλ‘œ, Unless Otherwise Specified, μ λΆ„μ˜ μˆœμ„œλŠ” κ΅ν™˜ κ°€λŠ₯함을 믿을 κ²ƒμž…λ‹ˆλ‹€.

μ •μ˜ : μ£Όλ³€ν™•λ₯ λ°€λ„ν•¨μˆ˜
κ²°ν•© ν™•λ₯ λ°€λ„ν•¨μˆ˜κ°€ $f(x, y)$ 인 ν™•λ₯ λ³€μˆ˜ $(X, Y)$ 에 λŒ€ν•΄, μ£Όλ³€ν™•λ₯ λ°€λ„ν•¨μˆ˜ (marginal pdf) λ₯Ό λ‹€μŒκ³Ό 같이 μ •μ˜ν•œλ‹€. \(f_1(x) = \int_{-\infty}^{\infty} f(x, y) \dd{y} \quad \quad f_2(y) = \int_{-\infty}^{\infty} f(x, y) \dd{x}\)

곡뢄산과 μƒκ΄€κ³„μˆ˜

μ •μ˜ : 곡뢄산, μƒκ΄€κ³„μˆ˜
두 ν™•λ₯ λ³€μˆ˜ $X, Y$의 평균이 $\mu_1, \mu_2$ 이고 ν‘œμ€€νŽΈμ°¨κ°€ $\sigma_1, \sigma_2$ 일 λ•Œ, λ‹€μŒκ³Ό 같이 곡뢄산을 μ •μ˜ν•œλ‹€. \(\Cov(X, Y) = \expect{(X - \mu_1)(Y - \mu_2)}\) λ˜ν•œ, λ‹€μŒκ³Ό 같이 μƒκ΄€κ³„μˆ˜ (Correlation coefficient) λ₯Ό μ •μ˜ν•œλ‹€. \(\Corr(X, Y) = \frac{\Cov(X, Y)}{\sigma_1 \sigma_2}\)
곡뢄산은 두 값듀이 ν‰κ· μœΌλ‘œλΆ€ν„° λ‹¬λΌμ§€λŠ” 정도에 λŒ€ν•΄ μ–΄λ–€ 관계가 μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λƒ…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, $X$κ°€ λŒ€μ²΄λ‘œ 평균보닀 클 λ•Œ $Y$도 λŒ€μ²΄λ‘œ 평균보닀 크닀면 곡뢄산값이 μ–‘μˆ˜μ΄κ³ , κ·Έ λ°˜λŒ€λΌλ©΄ 음수인 μ‹μž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 이 값은 μ ˆλŒ€μ μΈ $X$의 μŠ€μΌ€μΌ - 즉, 1λΆ€ν„° 10사이인지, 1λΆ€ν„° 100사이인지 - 에 μ˜ν•΄ 크게 달라지기 λ•Œλ¬Έμ—, 이λ₯Ό $X$와 $Y$자체의 ν‘œμ€€νŽΈμ°¨λ‘œ λ‚˜λˆ„μ–΄ -1κ³Ό 1 μ‚¬μ΄μ˜ 값을 갖도둝 normalizeν•œ 값이 μƒκ΄€κ³„μˆ˜κ°€ λ©λ‹ˆλ‹€.
κ·Έλ ‡κΈ° λ•Œλ¬Έμ—, μƒκ΄€κ³„μˆ˜λŠ” μ„œλ‘œκ°„μ˜ μ„ ν˜•μ  상관관계 κ°€ μ–Όλ§ˆλ‚˜ κ°•ν•œμ§€λ₯Ό 확인해 μ£ΌλŠ” κ°’μž…λ‹ˆλ‹€.

λ‹€μŒμ˜ μ„±μ§ˆλ“€μ€ κ·Έλ ‡κ²Œ 보면 μ’€ μžμ—°μŠ€λŸ½μŠ΅λ‹ˆλ‹€.

  • $\Cov(X, Y) = \Cov(Y, X), \quad \Cov(X, X) = \V(X)$
  • $\Cov(aX + b, cY + d) = ac \ \Cov(X, Y)$
  • $\Cov(X, Y) = \E(XY) - \mu_1 \mu_2$
  • $\rho = \Corr(X, Y)$ 에 λŒ€ν•΄, $ 1 - \rho^2 = \variance{\displaystyle\frac{Y - \mu_2}{\sigma_2} - \rho \frac{X - \mu_1}{\sigma_1}}$

λ‹€λ₯Έ μ„±μ§ˆλ“€μ€ λ³„λ‘œ 증λͺ…κΉŒμ§€λŠ” ν•„μš”ν•˜μ§€ μ•Šκ³ , λ§ˆμ§€λ§‰ μ„±μ§ˆλ§Œ 논증해 보자면:

  • μš°λ³€μ€ κ²°κ΅­ μ œκ³±ν•˜μ—¬ κΈ°λŒ“κ°’μ˜ ν˜•νƒœλ‘œ μ“Έ 수 μžˆμŠ΅λ‹ˆλ‹€. 특히 μš°λ³€ $\V$ μ•ˆμ˜ κΈ°λŒ“κ°’μ΄ 0μ΄λ―€λ‘œ, \(\variance{\frac{Y - \mu_2}{\sigma_2} - \rho \frac{X - \mu_1}{\sigma_1}} = \expect{\left(\frac{Y - \mu_2}{\sigma_2} - \rho \frac{X - \mu_1}{\sigma_1}\right)^2}\)
  • 이제, 이 μ œκ³±μ„ μ •λ¦¬ν•˜λ©΄ \(\expect{\left(\frac{Y - \mu_2}{\sigma_2}\right)^2 - 2 \rho \frac{Y - \mu_2}{\sigma_2}\frac{X - \mu_1}{\sigma_1} + \left(\rho\frac{X - \mu_1}{\sigma_1}\right)^2}\)
  • κΈ°λŒ“κ°’μ˜ μ„ ν˜•μ„±μ— μ˜ν•΄, μ΄λŠ” λ‹€μ‹œ 정리가 κ°€λŠ₯ν•©λ‹ˆλ‹€. \(\rho^2\frac{\V(X)}{\sigma_1^2} + \frac{\V(Y)}{\sigma_2^2} - 2\rho\frac{\Cov(X, Y)}{\sigma_1\sigma_2}\)
  • μ •μ˜λ₯Ό λŒ€μž…ν•˜λ©΄ μ›ν•˜λŠ” 식을 μ–»μŠ΅λ‹ˆλ‹€.