Back to : mathematical-statistics
Contents

ν™•λ₯ λ³€μˆ˜μ™€ ν™•λ₯  μ§ˆλŸ‰/밀도 ν•¨μˆ˜

λ¨Όμ € μ •μ˜λ‘œ μ‹œμž‘ν•©λ‹ˆλ‹€. μ •μ˜ : ν™•λ₯ λ³€μˆ˜
μ—¬λŸ¬ κ²°κ³Όκ°€ κ°€λŠ₯ν•˜κ³  각 결과에 ν™•λ₯ μ΄ λΆ€μ—¬λ˜λŠ” μ‹€ν—˜μ„ λžœλ€ν•œ μ‹€ν—˜ (random experiment) 라 ν•˜κ³ , κ·Έ κ°€λŠ₯ν•œ κ²°κ³Ό 집합을 ν‘œλ³Έκ³΅κ°„μœΌλ‘œ λ‚˜νƒ€λ‚Έλ‹€. μ΄λ•Œ, 이 ν‘œλ³Έκ³΅κ°„ μœ„μ—μ„œ μ •μ˜λœ μ‹€μˆ˜κ°’ ν•¨μˆ˜λ₯Ό ν™•λ₯ λ³€μˆ˜λΌ ν•œλ‹€.
즉, ν™•λ₯ λ³€μˆ˜λž€ ν™•λ₯ μ΄ μ •μ˜λ˜λŠ” ν‘œλ³Έκ³΅κ°„ 을 μ •μ˜μ—­μœΌλ‘œ, μ‹€μˆ˜ λ₯Ό μΉ˜μ—­μœΌλ‘œ ν•˜λŠ” ν•¨μˆ˜λ₯Ό λ§ν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, β€˜μ£Όμ‚¬μœ„μ˜ λˆˆβ€™ 은 1λΆ€ν„° 6κΉŒμ§€μ˜ 각 눈이 λ‚˜μ˜€λŠ” 사건듀이 ν‘œλ³Έκ³΅κ°„μ΄ 되며 각 ν™•λ₯ μ΄ 1/6인 ν™•λ₯ λ³€μˆ˜κ°€ λ©λ‹ˆλ‹€.

ν™•λ₯ λ³€μˆ˜ $X$의 μΉ˜μ—­μ΄ 이산적인지 ($\Set{x_1, \dots x_k}$), 연속적인지에 따라 이산확λ₯ λ³€μˆ˜μ™€ 연속확λ₯ λ³€μˆ˜λ‘œ κ΅¬λΆ„ν•©λ‹ˆλ‹€.

μ΄λ•Œ, 각각에 λŒ€ν•΄ ν™•λ₯  μ§ˆλŸ‰/밀도 ν•¨μˆ˜λ₯Ό μ •μ˜ν•©λ‹ˆλ‹€. μ •μ˜ : ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜
이산확λ₯ λ³€μˆ˜ $X$μ—μ„œ, ν•¨μˆ˜ $f(x_i) = \P(X = x_i)$ λ₯Ό $X$의 ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜ (probability mass function) 라 ν•œλ‹€.

이산확λ₯ λ³€μˆ˜μ˜ ν™•λ₯  μ§ˆλŸ‰ ν•¨μˆ˜λŠ” λ‹€μŒκ³Ό 같은 μ„±μ§ˆμ„ λ§Œμ‘±ν•©λ‹ˆλ‹€.

  • $f(x) \geq 0$, $f(x) = 0$ if $x \neq x_k$ for some $k$.
  • $\sum_{x} f(x) = 1$
  • $\sum_{x \in A} f(x) = \P(X \in A)$

연속확λ₯ λ³€μˆ˜μ˜ 경우, μƒκ°ν•˜λŠ” 방법이 쑰금 λ‹€λ¦…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ $[0, 1]$ κ΅¬κ°„μ—μ„œ μ™„μ „νžˆ λžœλ€ν•˜κ²Œ μž„μ˜μ˜ 점을 ν•˜λ‚˜ νƒν–ˆλŠ”λ°, κ·Έ 점이 μ •ν™•νžˆ $1/2$ 일 ν™•λ₯ μ„ μ–Όλ§ˆλΌκ³  ν•˜λ”λΌλ„ μ΄μƒν•©λ‹ˆλ‹€.

  • 이 ν™•λ₯ μ΄ μ–΄λ–€ μ‹€μˆ˜ $\epsilon > 0$ 이라면,
  • $1/\epsilon$ 보닀 큰 μžμ—°μˆ˜ $N$을 μž‘μ•„μ„œ $x_1, \dots x_N$을 생각할 λ•Œ νƒν•œ 점이 이듀 쀑 ν•˜λ‚˜μΌ ν™•λ₯ μ΄ 1이 λ„˜μ–΄κ°‘λ‹ˆλ‹€.
  • λ”°λΌμ„œ, ν™•λ₯ μ˜ 곡리에 따라 $\P(X = 1/2)$ λŠ” 0이어야 ν•©λ‹ˆλ‹€. 연속확λ₯ λ³€μˆ˜λŠ” μš°λ¦¬κ°€ 고등학ꡐ λ•Œ 배운 κΈ°ν•˜μ  ν™•λ₯ μ²˜λŸΌ 생각해야 ν•©λ‹ˆλ‹€. κ°œλ³„ 값이 μ•„λ‹Œ, ꡬ간 을 κΈ°λ³Έ λ‹¨μœ„λ‘œ μ‚ΌμŠ΅λ‹ˆλ‹€. λ°€λ„λΌλŠ” 말도 κ·Έλ ‡κ²Œ μ΄ν•΄ν•˜λ©΄ λ˜λŠ”λ°, λΆ€ν”Όκ°€ μ—†λŠ” 점을 μƒκ°ν•˜λ©΄ μ‡ κ΅¬μŠ¬μ˜ νŠΉμ •ν•œ ν•œ 점의 μ§ˆλŸ‰μ€ 0이라고 ν•΄μ•Ό ν•˜μ§€λ§Œ 전체 μ‡ κ΅¬μŠ¬μ€ μ§ˆλŸ‰μ„ κ°–λŠ” 것과 λΉ„μŠ·ν•œ μ΄μΉ˜μž…λ‹ˆλ‹€.

μ •μ˜ : ν™•λ₯ λ°€λ„ν•¨μˆ˜
연속확λ₯ λ³€μˆ˜ $X$μ—μ„œ, $\displaystyle\int_{a}^{b} f(x) \dd{x} = \P(a \leq X \leq b)$ 인 ν•¨μˆ˜ $f$ λ₯Ό $X$의 ν™•λ₯ λ°€λ„ν•¨μˆ˜ (probability density function) 라 ν•œλ‹€.

거의 λΉ„μŠ·ν•œ μ„±μ§ˆμ„ pdf에 λŒ€ν•΄μ„œλ„ λ…Όμ˜ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • $f(x) \geq 0$
  • $\displaystyle\int_{-\infty}^{\infty} f(x) \dd{x} = 1$
  • $\displaystyle\int_{A} f(x) \dd{x} = \P(X \in A)$

ν™•λ₯ λ°€λ„ν•¨μˆ˜μ— κ΄€ν•œ 3b1b μ˜μƒ μœΌλ‘œλΆ€ν„°λ„ λ§Žμ€ insightλ₯Ό 얻을 수 μžˆμŠ΅λ‹ˆλ‹€.

사싀은, 츑도λ₯Ό μ΄μš©ν•˜κ²Œ 되면 μ—¬κΈ°μ„œ μ΄μ‚°ν˜•κ³Ό μ—°μ†ν˜•μ„ κ΅¬λΆ„ν•˜μ§€ μ•Šμ•„λ„ λ©λ‹ˆλ‹€. λ‚˜μ€‘μ— 츑도에 κΈ°λ°˜ν•œ ν™•λ₯ λ‘ μ„ κ³΅λΆ€ν•˜κ³  ν¬μŠ€νŒ…ν•  생각이 μžˆκΈ΄ν•œλ° μ–Έμ œκ°€ λ μ§€λŠ” λͺ¨λ₯΄κ² μŠ΅λ‹ˆλ‹€. μ΄ν•˜, ν™•λ₯ μ§ˆλŸ‰ν•¨μˆ˜μ™€ ν™•λ₯ λ°€λ„ν•¨μˆ˜λ₯Ό λͺ¨λ‘ λ°€λ„λΌλŠ” μš©μ–΄λ‘œ ν†΅μΌν•˜κ² μŠ΅λ‹ˆλ‹€. λ˜ν•œ μ•žμœΌλ‘œλŠ”, β€œμ λΆ„μ„ ν•©μœΌλ‘œ λ°”κΎΈλŠ”β€ 아이디어λ₯Ό 톡해 μ΄μ‚°ν˜• ν™•λ₯ λ³€μˆ˜μ— λŒ€ν•΄ κ°„λ‹¨νžˆ λ…Όμ˜ν•  수 μžˆμœΌλ―€λ‘œ, λͺ¨λ“  statementλŠ” μ—°μ†ν˜•μΈ 경우만 μ“°κ² μŠ΅λ‹ˆλ‹€.

μ–΄λ–€ 값이 $t$ μ΄ν•˜ 일 ν™•λ₯ μ„ κ³ λ €ν•˜λŠ” 것 λ˜ν•œ 맀우 ν”ν•œ μΌμž…λ‹ˆλ‹€. μ •μ˜ : λˆ„μ λΆ„ν¬ν•¨μˆ˜
연속확λ₯ λ³€μˆ˜ $X$μ—μ„œ, $\displaystyle F(t) = \int_{-\infty}^{t} f(x) \dd{x} = \P(X \leq t)$ 인 ν•¨μˆ˜ $f$ λ₯Ό $X$의 λˆ„μ  뢄포 ν•¨μˆ˜λΌ ν•œλ‹€.
κ°„λ‹¨ν•œ 미적뢄학에 μ˜ν•΄, $f$κ°€ 연속인 $t$에 λŒ€ν•΄μ„œλŠ” λ‹€μŒμ΄ μ„±λ¦½ν•©λ‹ˆλ‹€. \(F(t) = \int_{-\infty}^{t} f(x) \dd{x} \ \Rightarrow \ \dv{F}{t} = f(t)\)

ν™•λ₯ λ³€μˆ˜μ˜ κΈ°λŒ“κ°’κ³Ό λΆ„μ‚°

μš°λ¦¬κ°€ 잘 μ•Œκ³  μžˆλŠ” 평균을 λ‹€μŒκ³Ό 같이 μ •μ˜ν•©λ‹ˆλ‹€. μ •μ˜ : 평균
μ–΄λ–€ ν™•λ₯ λ³€μˆ˜ $X$의 ν™•λ₯ λ°€λ„ν•¨μˆ˜κ°€ $f$일 λ•Œ, $X$의 ν™•λ₯ λΆ„ν¬μ˜ 평균(mean)은 λ‹€μŒκ³Ό 같이 μ •μ˜λœλ‹€.
\(\mu = \int_{-\infty}^{\infty} xf(x) \dd{x}\)
(μ΄μ‚°ν˜•μ΄λ©΄ λ§ˆμ°¬κ°€μ§€λ‘œ ν•©μœΌλ‘œ λ°”κΎΈλ©΄ λ©λ‹ˆλ‹€)

보닀 일반적으둜, ν™•λ₯ λ³€μˆ˜ $X$에 λŒ€ν•΄ μ–΄λ–€ ν•¨μˆ˜ $g(X)$λ₯Ό 생각할 수 있고, μ΄λ•Œβ€¦ μ •μ˜ : κΈ°λŒ“κ°’
μ–΄λ–€ ν™•λ₯ λ³€μˆ˜ $X$의 ν™•λ₯ λ°€λ„ν•¨μˆ˜κ°€ $f$일 λ•Œ, $g(X)$의 κΈ°λŒ“κ°’ (expectation)은 λ‹€μŒκ³Ό 같이 μ •μ˜λœλ‹€. \(\E(g(X)) = \int_{-\infty}^{\infty} g(x)f(x) \dd{x}\)

μ΄λŸ¬ν•œ μ •μ˜λ“€ λ˜ν•œ 츑도에 μ˜ν•΄ 보닀 μžμ—°μŠ€λŸ½κ²Œ μ •μ˜λ˜κ³ , λͺ©ν‘œλŠ” ν™•λ₯ λ‘ μ΄ μ•„λ‹Œ μˆ˜λ¦¬ν†΅κ³„μ— μžˆμœΌλ―€λ‘œ μ΅œλŒ€ν•œ μŠ€ν‚΅ν•©λ‹ˆλ‹€.

κΈ°λŒ“κ°’μ— λŒ€ν•΄, λ‹€μŒκ³Ό 같은 정리가 잘 μ•Œλ €μ Έ μžˆμŠ΅λ‹ˆλ‹€. 정리 : κΈ°λŒ“κ°’μ˜ μ„ ν˜•μ„±
ν™•λ₯ λ³€μˆ˜ $X, Y$와 μ‹€μˆ˜ $a, b$에 λŒ€ν•΄, κΈ°λŒ“κ°’μ˜ μ„ ν˜•μ„±μ΄ μ„±λ¦½ν•œλ‹€. \(\E(aX + bY) = a\E(X) + b\E(Y)\)

μ–΄λ–€ ν™•λ₯ λ³€μˆ˜κ°€ ν‰κ· μœΌλ‘œλΆ€ν„° μ–Όλ§ˆλ‚˜ λ„“κ²Œ 뢄포해 μžˆλŠ”μ§€λ₯Ό λ‚˜νƒ€λ‚΄λŠ” κ°’μœΌλ‘œ λΆ„μ‚° 을 μ”λ‹ˆλ‹€. μ •μ˜ : λΆ„μ‚°
μ–΄λ–€ ν™•λ₯ λ³€μˆ˜ $X$의 ν™•λ₯ λ°€λ„ν•¨μˆ˜κ°€ $f$일 λ•Œ, $X$의 ν™•λ₯ λΆ„ν¬μ˜ λΆ„μ‚°(variance)은 λ‹€μŒκ³Ό 같이 μ •μ˜λœλ‹€. 단, $\mu = \E(X)$. \(\V(X) = \E((X - \mu)^2)\)
즉 β€˜ν‰κ· μ—μ„œ 떨어진 정도’, 편차 의 제곱의 평균을 μ˜λ―Έν•©λ‹ˆλ‹€.

λΆ„μ‚°μ˜ μ‹€μ œ 계산은 μ•„λž˜μ™€ 같이 μˆ˜ν–‰ν•©λ‹ˆλ‹€. 정리 : λΆ„μ‚°μ˜ 계산 (μ œν‰-ν‰μ œ)
ν™•λ₯ λ³€μˆ˜ $X$의 뢄산을 λ‹€μŒκ³Ό 같이 계산할 수 μžˆλ‹€. \(\V(X) = \E((X - \mu)^2) = \E(X^2 - 2 \mu X + \mu^2) = \E(X^2) - 2\mu\E(X) + \mu^2 = \E(X^2) - \E(X)^2\)
μ•žμ„œ λ…Όμ˜ν•œ κΈ°λŒ“κ°’μ˜ μ„ ν˜•μ„±μ— μ˜ν•΄ λ°”λ‘œ μœ λ„ν•  수 μžˆμŠ΅λ‹ˆλ‹€. ($\mu$λŠ” 이미 $\E$λ₯Ό μ”Œμš΄ κ²°κ³Όμ΄λ―€λ‘œ μƒμˆ˜)

뢄산은 μ„ ν˜•μ μ΄μ§€ μ•Šμ§€λ§Œ, λ‹€μŒκ³Ό 같은 곡식이 μ„±λ¦½ν•©λ‹ˆλ‹€. 정리 : λΆ„μ‚°μ˜ 계산
ν™•λ₯ λ³€μˆ˜ $X$ 와 μ‹€μˆ˜ $a, b$에 λŒ€ν•΄, λ‹€μŒμ΄ μ„±λ¦½ν•œλ‹€. \(\V(aX + b) = a^2 \V(X)\)
생각해보면 이 곡식은 거의 자λͺ…ν•œλ°, μƒμˆ˜λ₯Ό λ”ν•˜λŠ” 것은 ν‰κ· μ—μ„œ 데이터가 λΆ„ν¬ν•œ 정도λ₯Ό 바꾸지 μ•ŠμœΌλ―€λ‘œ $X - \mu$λ₯Ό μ·¨ν•˜λŠ” κ³Όμ •μ—μ„œ λͺ¨λ‘ λ‚ μ•„κ°€κ³ , $aX$ λŠ” 편차λ₯Ό $\abs{a}$배둜 λ§Œλ“€κΈ° λ•Œλ¬Έμ— κ·Έ 제곱의 κΈ°λŒ“κ°’μ€ $a^2$λ°°κ°€ 될 κ²ƒμž…λ‹ˆλ‹€.