[Randomized Algorithms] Median-of-Mean Trick
Contents
์ค๋ ํฌ์คํ ์์๋ randomized algorithm ์ ๋น๋กฏํ์ฌ, estimation ์์ ๋งค์ฐ ํํ ํ์ฉ๋๋ ์ค๊ฐ๊ฐ์ ์ด์ฉํ ๊ธฐ๋ฒ์ ์๊ฐํฉ๋๋ค.
์ดํ, ํ๋ฅ ๋ณ์ $X$์ ๊ธฐ๋๊ฐ, ๋ถ์ฐ, ํ์คํธ์ฐจ๋ฅผ ๊ธฐ๋๊ฐ $\E[X]$, ๋ถ์ฐ $\V[X]$, ํ์คํธ์ฐจ $\sigma[X] = \sqrt{\V[X]}$ ๋ก ์ฐ๊ฒ ์ต๋๋ค.
Problem
์ด๋ค ๋ฏธ์ง์ ๊ฐ์ ๋ํ unbiased estimator random variable $X$๊ฐ ์ฃผ์ด์ง๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. (์ฌ๊ธฐ์ unbiased๋ผ ํจ์, $\E[X] = \mu$ ๊ฐ ์ฐ๋ฆฌ๊ฐ ์ถ์ ํ๊ณ ์ ํ๋ ๋ฏธ์ง์ ๊ฐ๊ณผ ๊ฐ์์ ์๋ฏธํฉ๋๋ค.) Randomized algorithm์ ๋งฅ๋ฝ์์๋, ์๊ณ ๋ฆฌ์ฆ์ ์ถ๋ ฅ์ด ํ๋ฅ ๋ณ์๋ก ํํ๋๋ฏ๋ก ๊ทธ ๊ธฐ๋๊ฐ์ด ์ฐธ๊ฐ๊ณผ ๊ฐ์ ์ํฉ์ด๋ผ๊ณ ์๊ฐํ ์ ์์ต๋๋ค.
์ฌ๊ธฐ์ ์ถ๊ฐ๋ก, $\V[X]$ ๊ฐ ์ต๋ $\E[X]^2$ ์ ๋น๋กํ๋ ์ํฉ์ ๊ฐ์ ํฉ๋๋ค. (์ฆ, $\sigma[X] = c\E[X]$. ์ฌ์ค ์ดํ์ ๋ ผ์๋ ๋ถ๋ฑํธ $\leq$ ๋ก๋ ์ ์ฑ๋ฆฝํฉ๋๋ค) ์ผํ ๋ณด๋ฉด ์ฝ๊ฐ ํน์ํด ๋ณด์ด์ง๋ง, ์ฌ์ค ์ด ์ํฉ์ ์๊ณ ๋ฆฌ์ฆ ๋ถ์์ ๋น๋กฏํด์ ๋งค์ฐ ํํ ๋ฐ์ํฉ๋๋ค.
์ฐ๋ฆฌ์ ๋ชฉํ๋ ์ด๋ค ์์ $\delta$์ $\epsilon$์ ๋ํด, $1 - \delta$ ํ๋ฅ ๋ก $\epsilon$ ๋งํผ์ ์๋ ์ค์ฐจ๋ฅผ ๋ณด์ฅํ๊ณ ์ถ์ต๋๋ค.
์ฆ, ํ๋ฅ ๋ณ์ $Y$๊ฐ ๋ค์์ ๋ง์กฑํ๋๋ก ํ๊ณ ์ ํฉ๋๋ค.
ํ๋ฅ ๋ณ์์ ์ํ $(\epsilon, \delta)$-๊ทผ์ฌ
Unbiased estimator $Y$์ ์ฐธ๊ฐ $\mu = \E[Y]$์ ๋ํด, ๋ค์์ด ์ฑ๋ฆฝํ ๋ $Y$๋ฅผ $\mu$์ ๋ํ $(\epsilon, \delta)$-๊ทผ์ฌ๋ผ๊ณ ์ ์ํ๋ค.
\(\P[\abs{Y - \mu} \geq \epsilon\mu] \leq \delta\)
(์ด ์ฉ์ด๋ ํ์ค์ผ๋ก ์ฐ๋ ์ฉ์ด๋ ์๋๊ณ , ํธ์์ ๋์
ํ ๊ฒ์
๋๋ค)
Naive Approach
์ด๋ค ํ๋ฅ ๋ณ์ $X$์ ๋ํด, ๋ค์์ด ์ ์๋ ค์ ธ ์์ต๋๋ค.
Chebyshevโs Inequality
ํ๋ฅ ๋ณ์ $X$์ ๊ธฐ๋๊ฐ $\mu = \E[X]$, ๋ถ์ฐ $\V[X]$, ํ์คํธ์ฐจ $\sigma[X] = \sqrt{\V[X]}$์ ๋ํ์ฌ, ๋ค์์ด ์ฑ๋ฆฝํ๋ค.
\(\P[\abs{X - \mu} \geq k\sigma[X]] \leq \frac{1}{k^2}\)
์ฐ๋ฆฌ๋ $\sigma[X] = c\mu$๋ฅผ ๊ฐ์ ํ์์ผ๋ฏ๋ก, ์ด๋ ๋ค์ ๋งํด $X$์ ๋ํด ๋ค์์ด ์ฑ๋ฆฝํ๋ค๋ ์๋ฏธ์
๋๋ค.
\(\P[\abs{X - \mu} \geq kc\mu] \leq \frac{1}{k^2}\)
๋ฌด์ธ๊ฐ๋ฅผ ๋ ์ ์ถ์ ํ๊ธฐ ์ํด์ ์๊ฐํ ์ ์๋ ๊ฐ์ฅ ๋์ด๋ธํ ๋ฐฉ๋ฒ์, ์ฌ๋ฌ ๊ฐ์ estimator๋ฅผ independentํ๊ฒ ์คํํ ๋ค์ ๊ทธ๋ค์ ํ๊ท ์ ์ทจํ๋ ๊ฒ์ ๋๋ค. $T$๊ฐ์ ํ๊ท ์ ์ทจํ๋ฉด, ๊ธฐ๋๊ฐ๊ณผ ๋ถ์ฐ์๋ ์๋ ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํฉ๋๋ค. \(Y = \frac{1}{T}\sum_{i = 1}^{T} X_i \qquad \Rightarrow \qquad \E[Y] = \E[X],\quad \V[Y] = \V[X] / T\)
๋ฐ๋ผ์, $k = 1 / \sqrt{\delta}$๋ก ๋๊ณ , $\sigma[Y] = \epsilon\sqrt{\delta}\mu$ ๊ฐ ๋๋๋ก $T = \frac{c}{\epsilon^2 \delta}$ ๊ฐ๋ฅผ ์ก์ผ๋ฉด ๋ชฉํํ๋ $(\epsilon, \delta)$ ๊ทผ์ฌ๋ฅผ ๋ฌ์ฑํ ์ ์์ต๋๋ค.
Theorem.
Unbiased estimator $X$๊ฐ $\V[X] = O(\E[X]^2)$๋ฅผ ๋ง์กฑํ๋ฉด, $O(1 / (\epsilon^2 \delta))$ ๊ฐ๋ก $(\epsilon, \delta)$ ๊ทผ์ฌ๋ฅผ ๋ฌ์ฑํ ์ ์๋ค.
Median-of-Mean Trick
์ค๋ ํฌ์คํ ์ ๋ฉ์ธ ์ฃผ์ ์ธ, ์ด ๋ฐฉ๋ฒ๋ณด๋ค ๋ ์ ์ ๊ฐ์๋ก ๋ชฉํ๋ฅผ ๋ฌ์ฑํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋๋ค.
- Estimator $X$๋ฅผ $4c / \epsilon^2$ ๋ฒ๋งํผ ์คํํ์ฌ ํ๊ท ์ ์ทจํ๋ค. ์ด๋ฅผ Estimator $Z$ ๋ผ ํ๋ค.
- Estimator $Z$๋ฅผ $12 \log (1 / \delta)$ ๋ฒ๋งํผ ์คํํ์ฌ ์ค๊ฐ๊ฐ ์ ์ทจํ๋ค. ์ด๋ฅผ Estimator $Y$ ๋ผ ํ๋ค.
์ด๋ ๊ฒ ์ป์ด์ง $Y$๊ฐ $\mu$์ $(\epsilon, \delta)$ ๊ทผ์ฌ๊ฐ ๋ฉ๋๋ค!
์์์ ์ ํํ ์ ๊ฐํ๊ธฐ ์ํด ์์๋ฅผ ์ ๋ง์ถฐ๋์์ง๋ง, ์ค์ ๋ก๋ $O(1 / \epsilon^2)$, $O(\log (1 / \delta))$ ๋ง ๊ธฐ์ตํ๋ฉด ์ถฉ๋ถํฉ๋๋ค.
Intuitive Explanation
์ค๊ฐ๊ฐ์ ํ๊ท ์ ๋นํด ์์ชฝ ๋์ outlier์ ๋ ๋ฏผ๊ฐํ ๊ฐ์ ๋๋ค. ์ฌ๋ฌ ๊ฐ์ estimator๋ค์ด ๋์ฒด๋ก ์ข์ ๊ฐ์ ์ ๊ณตํ๋ค๋ฉด, ๋ฎ์ ํ๋ฅ ๋ก ๊ฐ์ด ํฌ๊ฒ ํ๋๋ผ๋ ์ค๊ฐ๊ฐ์ ๊ทธ ์ํฅ์ ๋ง์ด ๋ฐ์ง ์๊ณ robustํ๊ฒ ์ข์ ๊ฐ์ ์ป์ ์ ์์ต๋๋ค.
์๋์ ์ฆ๋ช ์ ์ฌ์ค ์ด ์์ด๋์ด๋ฅผ formalํ๊ฒ ์์ฑํ ๊ฒ์ ์ง๋์ง ์์ต๋๋ค.
Proof of $(\epsilon, \delta)$ Approximation
์ ์ค๋ช ์์, ๋์ฒด๋ก ์ข์ ๊ฐ์ ์ ๊ณตํ๋ค ๋ฅผ ๋จผ์ ์๊ฐํ๊ณ ๋ค์ด๊ฐ๋๋ค. Estimator $Z$์ ๋ํด, ๋ค์์ด Chebyshev ๋ถ๋ฑ์์ ์ํด ์ฑ๋ฆฝํฉ๋๋ค. \(\P[\abs{Z - \mu} \geq \epsilon\mu] \leq \frac{\V[Z]}{\epsilon^2\mu^2} = \frac{1}{4}\) ์ฆ, $Z$ ๋ ์์ (3/4) ํ๋ฅ ๋ก ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ข์ estimation์ ์ ๊ณตํฉ๋๋ค. ๋ชฉํ๋ ์ด ํ๋ฅ ์ $1 - \delta$ ๊น์ง ๋์ด๋ ๊ฒ์ ๋๋ค.
$r$๊ฐ์ $Z$ estimator๋ค์ ์ค๊ฐ๊ฐ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฒ์๋ฅผ ๋ฒ์ด๋๊ธฐ ์ํด์๋, ์ ์ด๋ $r / 2$ ๊ฐ๋งํผ์ด ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๋ฒ์ ๋ฐ์ ์์ด์ผ ํฉ๋๋ค. ($r / 2$๊ฐ์ ๊ฐ์ด ๊ตฌ๊ฐ $[a, b]$ ์ฌ์ด์ ์๋ค๋ฉด, ์ค๊ฐ๊ฐ์ด ๊ทธ ๋ฒ์์ ๋ค์ด๊ฐ๋ค๋ ๊ฒ์ ์ฝ๊ฒ ์๊ฐํ ์ ์์ต๋๋ค) ์ด๋ฅผ ๋์ estimator๋ผ ํ๋ฉด, $r / 2$๊ฐ์ ๊ฐ์ด ๋์ ํ๋ฅ ์, ์ฑ๊ณต ํ๋ฅ ์ด $1/4$ ์ดํ์ธ ๋ฒ ๋ฅด๋์ด ์ํ์ $r$๋ฒ ํด์ ์ฑ๊ณต ํ์๊ฐ $r/2$๋ฒ ์ด์์ด๊ธฐ๋ฅผ ๊ธฐ๋ํ๋ค๋ ์๋ฏธ์ด๋ฏ๋ก \(\P[\text{at least } r / 2 \text{ estimators are bad}] = \P[B(r, 1/4) \geq r/2]\) ๋ก ์ธ ์ ์์ต๋๋ค. ์ด ํ๋ฅ ์ ๊ณ์ฐํ๊ธฐ ์ํด, Chernoff Bound๋ฅผ ์ ์ฉํฉ๋๋ค.
Chernoff Bound (for sum of indep. random variables).
ํ๋ฅ ๋ณ์ $X_1, X_2, \dots X_n$์ด ๊ฐ๊ฐ $\set{0, 1}$ ์์ ๊ฐ์ ๊ฐ๋ independent random variable ์ด๊ณ , $X = \sum X_i, \mu = \E[X]$ ์ผ ๋, $t \in (0, 1)$์ ๋ํด ๋ค์์ด ์ฑ๋ฆฝํ๋ค.
\(\P[X \geq (1 + t) \mu] \leq \exp\left(-t^{2}\mu/3\right)\)
์ด๋ฅผ ์ ์ฉํ๋ฉด, $\P[B(r, 1/4) \geq r/2] \leq e^{-r / 12}$ ๋ฅผ ์ป์ต๋๋ค.
๋ฐ๋ผ์, $r = 12 \log (1 / \delta)$ ๋ฅผ ํํ๋ฉด,
\(\P[\text{median is bad}] \leq \P[\text{at least } r / 2 \text{ estimators are bad}] \leq \delta\)
๊ฐ ์ฑ๋ฆฝํ๋ฏ๋ก, ์ค๊ฐ๊ฐ $Y$๋ $(\epsilon, \delta)$ ๊ทผ์ฌ์
๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก, ๋ค์์ ์ ๋ฆฌ๊ฐ ์ฑ๋ฆฝํฉ๋๋ค.
Theorem.
Unbiased estimator $X$๊ฐ $\V[X] = O(\E[X]^2)$๋ฅผ ๋ง์กฑํ๋ฉด, $O(\frac{1}{\epsilon^2}\log(1 / \delta))$ ๊ฐ๋ก $(\epsilon, \delta)$ ๊ทผ์ฌ๋ฅผ ๋ฌ์ฑํ ์ ์๋ค.
์์ ์ ๋ฆฌ์ ๋น๊ตํ๋ฉด, $1 / \delta$ term์ $\log(1 / \delta)$๋ก ๊ฐ์ ํ ๊ฒ์ด ๋ฉ๋๋ค.
์ค๊ฐ๊ฐ์ ๋ํด์๋ ์ฌ๋ฐ๋ ์ฑ์ง์ด ์๋ ค์ ธ ์์ต๋๋ค.
Popultation median 1 ์ด $\tilde{\mu}$์ธ $X$์์ ์ถ์ถํ sample์ median์ ๋ํด,
Theorem. [1]
(์ฝ๊ฐ์ ๊ฐ์ ํ์์) $X$์ density function์ด $f$, $X$์ median์ด $\tilde{\mu}$์ผ ๋, $X$์์ $2m+1$ ๊ฐ๋ฅผ sampleํ์ฌ ์ป์ median์ ๋ถํฌ๋
ํ๊ท ์ด $\tilde{\mu}$, ๋ถ์ฐ์ด $\frac{1}{8f(\tilde{\mu})^2 m}$์ธ ์ ๊ท๋ถํฌ๋ก ์๋ ดํ๋ค.
์ ์ ๋ฆฌ๋ absolute continuity, infinite population ๋ฑ ๋ช๊ฐ์ง technicalํ๊ณ mildํ ๊ฐ์ ์ด ๋ค์ด๊ฐ์ง๋ง,
์ผ๋จ์ ์ด๋ถ๋ถ์ ์ฐ๋ฆฌ์ ๋ชฉํ์ธ randomized algorithm์ ๊ฒฝ์ฐ์๋ ํฌ๊ฒ ์ค์ํ์ง๋ ์์ต๋๋ค.
๋ฐ๋ผ์, ํ๊ท ์ ์ค๊ฐ๊ฐ์ด ์ด๋ค ๋ถํฌ๋ฅผ ๋ณด์ผ์ง๋ ๋๋ต ์ ์ ์์ต๋๋ค. ์ ์ ๋ฆฌ์์ ์ฐ๋ฆฌ๊ฐ ํ์ํ $f$ ๋ (์๊ธฐ ์ด๋ ค์ด) ์๋ estimator์ probability density๊ฐ ์๋, ๊ทธ ํ๋ณธํ๊ท ์ pdf์ ๋๋ค ($Z$์ ๋ํด ์ค๊ฐ๊ฐ์ ์ทจํ๋ฏ๋ก) Central Limit Theorem์ ์ํด, ํ๋ณธ ํ๊ท ์ ๋ถํฌ ๋ ์ ๊ท๋ถํฌ๋ก ์๋ ดํ๋ฏ๋ก, ์ถฉ๋ถํ ํฐ sample size์์ $Z$ estimator๋ ๊ฑฐ์ ์ ๊ท๋ถํฌ์ด๊ณ โฆ ๊ทธ๋ฌ๋ฉด $f$ ๊ฐ๋ ์ ํํ๊ฒ ๊ตฌํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค.
CLT์ ์ ํํ statement๋ฅผ ์ด์ฉํ๋ฉด, ๋ถํฌ์ ๊ฑฐ๋ฆฌ ์์์ ๋ง์ ๊ฒ์ ๋ ๋ ผ์ํ ์ ์์ง๋ง, ์ด ํฌ์คํ ์ ๋ฒ์๋ฅผ ๋ฒ์ด๋๋ฏ๋ก ์๋ตํ๊ฒ ์ต๋๋ค.
ํ๊ท ์ ์ค๊ฐ๊ฐ vs ์ค๊ฐ๊ฐ์ ํ๊ท
์ด ์ฅ์์, ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ์ด๋ค ๋ผ๊ณ ๋งํ๋ ๋ง์ ๊ฒฝ์ฐ์ ์ฌ์ค์ CLT์ ์ํด ์ ๊ท๋ถํฌ๋ก ์๋ ดํ ๊ฒฝ์ฐ๋ฅผ ๋งํฉ๋๋ค. ์ด๋์ ๋ถํฌ๋ ์ ํํ ์ ๊ท๋ถํฌ๊ฐ ๋์ง ์์ผ๋ฏ๋ก, ๋ชจ๋ ์์์ ๊ฐ๋ ์ฝ๊ฐ์ :hand-waving: ์ด ํฌํจ๋์ด ์์ต๋๋ค. CLT์ ์ํด ์ป์ด์ง๋ ๋ถํฌ์ ๋ํด ๋ฌด์ธ๊ฐ๋ฅผ ๋ ผ์ฆํ๋ ค๋ฉด convergence in distribution ๋ฑ ๋ณต์กํ ๊ฐ๋ ์ ์ ์ฉํด์ผ ํ๋ฉฐ, ๊ณผ์ ์์ ์๋ ด์ ํ๋ฒ์ฉ ์ธ๋๋ง๋ค ์ฝ๊ฐ์ฉ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
ํ๊ท ์ ์ค๊ฐ๊ฐ์ด์ด์ผ ํ๋ ์ด์ ๊ฐ ์์๊น์? ๊ตฌ์ฒด์ ์ผ๋ก๋, ์ค๊ฐ๊ฐ์ ํ๊ท ์ผ๋ก๋ ์ ๋ ๊น์?
์ค๊ฐ๊ฐ์ ํ๊ท ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
-
์ฒซ์งธ๋ก, ์ค๊ฐ๊ฐ์ ํ๊ท ์ ์๋ $X$์ ๊ธฐ๋๊ฐ์ด ์ ์ง๋๋ค๋ (unbiasedness) ๋ณด์ฅ์ด ์์ต๋๋ค. ๋ง์ฝ ๋ถํฌ๊ฐ ํ์ชฝ์ผ๋ก ๊ธฐ์ธ์ด์ ธ ์์ด, ์ค๊ฐ๊ฐ์ด ํ๊ท ๊ณผ ๋ค๋ฅด๋ค๋ฉด, ๊ฐ sample์ median์ bias๊ฐ ๋ฐ์ํฉ๋๋ค. ์ดํ ํ๊ท ์ ์ทจํ๋ ๊ณผ์ ์์ ์ด bias๊ฐ ์ฌ๋ผ์ง์ง ์์ต๋๋ค.
-
๊ทธ๋ ๋ค๋ฉด, ๋์นญ์ธ ๋ถํฌ์์๋ ๋๊ฐ์๊น์? ๊ทธ๋ ์ง ์์ต๋๋ค. ๋์นญ์ธ ๋ถํฌ์์๋ unbiasedness๋ ๋ณด์ฅํ ์ ์์ต๋๋ค (median = mean์ด๋ฏ๋ก) ๊ทธ๋ฌ๋ ์ด ๊ฒฝ์ฐ ์ด๋ ์ชฝ์ด ๋ ๋์ estimator์ธ์ง๋ ์ฝ๊ฐ ์ด๋ ค์ด ๋ฌธ์ ์ด๊ณ , ์ผ๋ฐ์ ์ผ๋ก๋ ํ๊ท ์ ์ค๊ฐ๊ฐ์ด ๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํฉ๋๋ค.
1๋ฒ์ ๊ฒฝ์ฐ ์กฐ๊ธ๋ง ์๊ฐํด ๋ณด๋ฉด ๋ฐ๋ก ์ ์ ์์ต๋๋ค. 2๋ฒ์ ๊ฒฝ์ฐ๋ ๊ทธ๋ ์ง ์์ผ๋ฏ๋ก, ์ด๋ถ๋ถ์ ๋ ์๊ฐํด ๋ณด๊ณ ์ ํฉ๋๋ค.
์์์ ๋ํด์ ์๊ฐํ๊ธฐ ์ ์, ์คํ์ ์ฝ๊ฐ ํด๋ณด๊ฒ ์ต๋๋ค. $X$๊ฐ $[-1, 1]$ ์์ uniformํ ๋ถํฌ๋ผ๊ณ ์๊ฐํด ๋ด ์๋ค. ์ด ๋ถํฌ์ ํ๊ท ์ 0์ด๊ณ , ๋ถ์ฐ์ $1 / 3$ ์ด ๋ฉ๋๋ค. (์์ ์๊ณ ๋ฆฌ์ฆ์ ํ๋ ์์ํฌ์ ๋ง์ถ๋ฉด, ์ฐ๋ฆฌ๊ฐ ์์ธกํ๊ณ ์ ํ๋ ๊ฐ์ด 0์ด๊ณ ๋ถ์ฐ์ด $1/3$์ด๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค)
์ด ๋ถํฌ์์, 10,000๊ฐ์ sample์ ๋ฝ์ ์ด๋ฅผ 100๊ฐ์ฉ 100๊ฐ์ ๊ทธ๋ฃน์ผ๋ก ๋๋์ด, 1) ๊ฐ group์ mean์ ๊ตฌํ๊ณ median์ ์ทจํ๋ ๊ฒฝ์ฐ 2) ๊ฐ group์ median์ ๊ตฌํ๊ณ mean์ ์ทจํ๋ ๊ฒฝ์ฐ ๋ฅผ 5,000๋ฒ ๋ฐ๋ณตํ๋ฉด, ์๋์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค.
Median-of-mean์ ๋ถํฌ๊ฐ ๋ ์ข์ (๋ถ์ฐ์ด ์๊ณ , 0 ์ฃผ๋ณ์ผ๋ก ๋ชฐ๋ฆฐ) ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋ ํ์คํธ์ฐจ๊ฐ ์ฝ 0.0097 vs 0.007๋ก, 40%์ ๋์ ๊ฐ์ ์ด ์์ต๋๋ค. KolmogorovโSmirnov test๋ฅผ ์ํํ์ ๋๋ $p < 2.5 \times 10^{-13}$์ผ๋ก, ๋ช ํํ ํต๊ณ์ ์ผ๋ก ์ ์ํ๊ฒ ๊ฐ์ ์ด ์์ต๋๋ค.
๋ค์ ์์์ผ๋ก ๋์์์ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. ์์์ theorem์ ๋์ ํด ๋ณด๋ฉดโฆ
$X$๊ฐ ๊ธฐ๋๊ฐ $\mu$์ ๋ถ์ฐ $\sigma^2$์ ๊ฐ์ง๋ค๊ณ ํ ๋, $(2m+1)$๊ฐ๋ฅผ ๋ฌถ์ด median์ ์ทจํ๊ณ , ์ด๊ฒ์ $(2k+1)$๊ฐ ๋ฌถ์ด์ mean์ ์ทจํ๋ค๋ฉด, ์ ๊ท๋ถํฌ๋ก๋ถํฐ ์ป์ sample mean์ ๋ถ์ฐ์ sample size๋ก ๋๋ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฆ์ด ์ ์๋ ค์ ธ ์์ผ๋ฏ๋ก, \(\hat{\mu} = \mu, \qquad \hat{\sigma}^2 = \frac{1}{(8f(\mu)^2 m) (2k + 1)}\) ์ parameter๋ฅผ ๊ฐ๋ ์ ๊ท๋ถํฌ๋ก ์๋ ดํ๊ฒ ๋๋ฉฐ, (๋์นญ์ธ ๋ถํฌ๋ฅผ ์๊ฐํ๋ฏ๋ก, $\tilde{\mu} = \mu$ ์ ๋๋ค) ์ฌ๊ธฐ์ $f$๋ ์๋ $X$ estimator์ pdf์ ๋๋ค.
๋ฐ๋๋ก, $(2k+1)$ ๊ฐ๋ฅผ ๋ฌถ์ด mean์ ์ทจํ๊ณ , ์ด๊ฒ์ $(2m+1)$๊ฐ ๋ฌถ์ด์ median์ ์ทจํ๋ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. Central Limit Theorem์ ์ํด, $(2k+1)$๊ฐ์ sample mean์ ๋ถํฌ๋ (์๋ ๋ถํฌ๊ฐ ์ ๊ท๋ถํฌ๊ฐ ์๋์ด๋) ํ๊ท $\mu$, ๋ถ์ฐ $\sigma^2 / (2k + 1)$ ์ ์ ๊ท๋ถํฌ์ ๋๋ค. ์ ๊ท๋ถํฌ์ ๋ํด, ์ median theorem์ ์ ์ฉํ๋ฉด, ํ๊ท ์ ์ค๊ฐ๊ฐ์ \(\hat{\mu} = \mu, \qquad \hat{\sigma}^2 = \frac{1}{(8g(\mu)^2 m)}\) ์ parameter๋ฅผ ๊ฐ๋ ์ ๊ท๋ถํฌ๋ก ์๋ ดํ๊ฒ ๋๋ฉฐ, ์ฌ๊ธฐ์ $g$๋ $X$๋ก๋ถํฐ ์ป์ $(2k+1)$๊ฐ์ sample mean์ ๋ถํฌ๊ฐ ๊ฐ๋ pdf์ ๋๋ค.
๊ทธ๋ฌ๋ฏ๋ก ๊ฒฐ๊ตญ ์ค์ํ ๊ฒ์ $f(\mu)$ ์ $g(\mu)$๊ฐ ์ผ๋ง๋ ์ฐจ์ด๊ฐ ๋๋๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋, ํ๊ท ์ ์ค๊ฐ๊ฐ์ด ๋ ๋์ estimator๋ผ๋ ์ฃผ์ฅ์ด ์ฐธ์ด๊ธฐ ์ํด์๋, $g(\mu)$ ๊ฐ $f(\mu)$ ์ $\sqrt{2k + 1}$ ๋ฐฐ ์ด์์ด ๋์ด์ผ ํฉ๋๋ค.
$X$๊ฐ ์ ๊ท๋ถํฌ์ธ ๊ฒฝ์ฐ, $\mu$์์์ ๊ฐ์ด $1 / \sigma$์ ๋น๋กํ๋ฏ๋ก $g(\mu)$๊ฐ ์ ํํ $\sqrt{2k+1}$ ๋ฐฐ๊ฐ ๋๋ฉฐ, ์ด๋ ๋ ๋ถํฌ (med-of-mean / mean-of-med) ๊ฐ ์ ํํ ๊ฐ์์ง๊ฒ ๋ฉ๋๋ค.
$X$๊ฐ ๋ค๋ฅธ ๋ถํฌ์ธ ๊ฒฝ์ฐ, $g(\mu)$๋ ์ฌ์ ํ ์ ๊ท๋ถํฌ์ ์๋ ดํ๋ฏ๋ก $g(\mu)$ ๋ $\frac{\sqrt{2k+1}}{\sigma \sqrt{2\pi}}$ ๊ฐ ๋ฉ๋๋ค. ๊ทธ๋ฌ๋ฏ๋ก $f(\mu)$ ๊ฐ $\frac{1}{\sigma \sqrt{2\pi}}$ ๋ณด๋ค ํฐ์ง ์์์ง์ ๋ฐ๋ผ ๊ฐ๋ฆฌ๊ฒ ๋๋ฉฐ, ์ด ๊ฐ์ ์ ๊ท๋ถํฌ์์ $\mu$ ์์น์ pdf๊ฐ ์ ๋๋ค. ๋ฐ๋ผ์, ์ ๊ท๋ถํฌ๋ณด๋ค concentrated๋2 ๋ถํฌ๋ฅผ ๊ฐ๋ $X$์ ๋ํด์๋ ์ค๊ฐ๊ฐ์ ํ๊ท ์ด, ๊ทธ๋ ์ง ์์ $X$์ ๋ํด์๋ ํ๊ท ์ ์ค๊ฐ๊ฐ์ ํํ๋ ๊ฒ์ด ์ ๋ฆฌํฉ๋๋ค.
๊ทธ ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋ํ์ ์ธ ๋ถํฌ๋ก๋ Laplace ๋ถํฌ๊ฐ ์์ต๋๋ค (PDF์ ์ต๋๊ฐ์ด $\sqrt{\pi}$๋ฐฐ๋งํผ ๋ ํฝ๋๋ค)
๊ฐ์ ์คํ์ Laplace๋ถํฌ์ ๋ํด ์งํํ๋ฉด, ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ต๋๋ค. $\mu = 0, b = 1$ ์ธ Laplace ๋ถํฌ๋ก๋ถํฐ ์์ ๋๊ฐ์ด 5,000 * 100 * 100 ์คํ์ ํ๋ฉด,
์ ๊ฐ์ด, ์ค๊ฐ๊ฐ์ ํ๊ท ์ด ๋ ๋์ ๋ถํฌ๋ฅผ ๊ฐ์ง์ ๋ณผ ์ ์์ต๋๋ค.
๋ค๋ง, ์ค๊ฐ๊ฐ์ ํ๊ท ์ ๊ฒฝ์ฐ ์์ ๊ฐ์ด Chebyshev-Chernoff๋ฅผ ์ด์ฉํ ๋ ผ์ฆ์ด ๋๊ฐ์ด ์ ์ฉ๋์ง๋ ์๊ณ , CLT์ ์์กดํด์ ์ฆ๋ช ํด์ผ ํ๋ฉฐ, rigor๊ฐ ์ฝ๊ฐ ์ ๋งคํด์ง๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค.
Applications
Count-Min, Count-Sketch ๋ฑ sublinear sketching์ ๋ง์ด ์ฌ์ฉ๋ฉ๋๋ค. ์ธ์ ๊ฐ ํฌ์คํ ํ๋ฉด ๋งํฌ๋ฅผ ์ถ๊ฐํ ์์ ์ ๋๋ค.
References
-
A. Merberg, and S. J. Miller, Course Notes for Math 162: Mathematical Statistics, The Sample Distribution of the Median, (2008)
Footnotes
-
ํ๋ฅ ๋ถํฌ $X$์ median์ด๋, cumulative distribution function $F_X$์ ๋ํด $F_X(t) = 1/2$ ๊ฐ ๋๋ ์ง์ ์ ๋งํฉ๋๋ค.ย โฉ
-
์ฌ๊ธฐ์์ ์๋ฏธ๋, ํ๊ท ์์์ ํจ์๊ฐ $f(\mu)$ ์ด ์ ๊ท๋ถํฌ๋ณด๋ค ํฌ๋ค๋ ์๋ฏธ์ ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋์นญ์ด๊ณ $\abs{x - \mu}$์ ๋ํด ๋จ์กฐ๊ฐ์ํ๋ bell curveํํ์ pdf๋ฅผ ์๊ฐํ๋ฉด, curve๊ฐ ๋พฐ์กฑํจ์ ์๋ฏธํฉ๋๋ค.ย โฉ