[P] Shallow Neural Networks - Introduction
์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ํ์ ๊ธฐ์ด 3๊ฐ (9์ 9์ผ), 4๊ฐ (9์ 14์ผ) ์ ๊ธฐ๋ฐํฉ๋๋ค.
์ด ๋ฌธ์๋ $\LaTeX$๋ฅผ pandoc์ผ๋ก ๋ณํํ์ฌ ์์ฑํ์๊ธฐ ๋๋ฌธ์, ๋ ์ด์์ ๋ฑ์ด ๊น๋ํ์ง ์์ ์ ์์ต๋๋ค. ์ธ์ ๊ฐ pdf ๋ฒ์ ์ ๋ ธํธ๋ฅผ ๊ณต๊ฐํ๋ค๋ฉด ๊ทธ์ชฝ์ ์ฐธ๊ณ ํ๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
Shallow Neural Network : Introduction
๋ฐ์ดํฐ $X_1, \dots X_n \in \mathcal{X}$์ด ์๊ณ , ์ด์ ๋ํ ์ ๋ต ๋ผ๋ฒจ $Y_1, \dots Y_n \in \mathcal{Y}$์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด ๋ณด์. ์ด๋, ์ด๋ค True Unknown Function $f_\star : \mathcal{X} \to \mathcal{Y}$ ๊ฐ ์๋ค๊ณ ์๊ฐํ๋ฉด, $Y_i = f_\star(X_i)$ ๋ฅผ ๋ง์กฑํ๋ค.
์ฐ๋ฆฌ๋, $X_i, Y_i$๋ก๋ถํฐ, $f_\star$๊ณผ ๊ฐ๊น์ด ์ด๋ค ํจ์ $f$๋ฅผ ์ฐพ์๋ด๋ ์์ ์ ์ํํ๊ณ ์ถ๋ค. $X_i$๋ค์ ๋ํด $Y_i$๋ ์ฌ๋์ด ์์งํ ๋ฐ์ดํฐ๋ฅผ ์ฐ๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ Supervised Learning์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค.
๋ญ๊ฐ๋ฅผ ์์ํ๊ธฐ ์ ์, ์ผ๋จ $f_\star$๊ณผ ๊ฐ๊น์ด $f$๊ฐ ๋๋์ฒด ๋ฌด์จ ๋ง์ธ์ง๋ฅผ ๋ช ํํ ํด์ผ ํ๋ค. ๋ญ๊ฐ๋ฅผ ์ต์ํํ๋ ๋ฌธ์ ๋ก ๋ง๋ค๊ณ ์ถ์๋ฐ... ๊ฐ์ฅ ์๋ช ํ ๋ฐฉ๋ฒ์ผ๋ก ์๊ฐํ๋ฉด ์ด๋ค ์์คํจ์ $\ell$์ ๋์ ํด์, ์ด๋ ๊ฒ ์ฐ๊ณ ์ถ๋ค. \(\underset{f \in \mathcal{F}}{\minimize}\ \sup_{x \in \mathcal{X}} \ell(f(x), f_\star(x))\) ์ด ๋ฌธ์ ๋, (1) ๋ชจ๋ ๊ฐ๋ฅํ ํจ์๋ค์ ๊ณต๊ฐ ์์์ ๋ญ๊ฐ๋ฅผ ์ต์ ํํ๋ค๋ ๊ฒ์ ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ก ๋ง์ด ์ ๋๊ณ , (2) ์ด ์ต์ ํ ๋ฌธ์ ์ ํด๋ $f_\star$์ด๋๊น, ์ฌ์ค ์ต์ ํ ๋ฌธ์ ๋ ๋ฑํ ์๋๋ค. ๋ชจ๋ $x$์ ๋ํด $f_\star$๋ฅผ ์๊ณ ์์ผ๋ฉด ์ต์ ํ๋ฅผ ์๊ฐํ ์ด์ ๊ฐ ์๋ค.
๋์ ์, ํจ์๋ค์ ๊ณต๊ฐ์ ์ ์ฝํ์. ์ด๋ค ํ๋ผ๋ฏธํฐ $\theta$๋ฅผ ์ด์ฉํ์ฌ, ์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ต์ ํ ๋ฌธ์ ๋ก ๋ฐ๊พธ๊ณ ์ถ๋ค. \(\underset{\theta \in \Theta}{\minimize}\ \sup_{x \in \mathcal{X}} \ell(f_\theta(x), f_\star(x))\)
์ฌ์ ํ, ์ผ๋จ ์ฐ๋ฆฌ๋ ๋ชจ๋ $x$์ ๋ํด $f_\star$๋ฅผ ์๊ณ ์์ง ์๋ค. ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ $x_1, x_2, \dots$ ์ ๋ํ ๋ต $y_1, y_2 \dots$ ๋ค์ ๋ง์ถฐ๋ผ ์ ์๋ ํจ์๋ฅผ ์ผ๋จ ๋ง๋๋ ์ ๋๊ฐ ์ต์ ์ด ์๋๊น? ๊ทธ๋ฆฌ๊ณ , ์ต์ ์ ๊ฒฝ์ฐ๋ฅผ ์ต์ํํ๋ ๋์ , ํ๊ท ์ ์ต์ ํํ๋๊ฒ ๋ญ๊ฐ โ์ผ๋ฐ์ ์ผ๋กโ ์ข์ ์๋ฃจ์ ์ ์ ๊ณตํ ๊ฒ ๊ฐ๋ค. supremum์ ์ต์ํํ๋ค๋ ๊ฒ์ ๋๋ฌด ์ง๋์น ๋ชฉํ์ด๋ค. \(\underset{\theta \in \Theta}{\minimize}\ \frac{1}{N}\sum_{i = 1}^{N} \ell(f_\theta(x_i), f_\star(x_i))\) ์ฐ๋ฆฌ๋ $f_\star(x_i) = y_i$ ์์ ์๊ณ ์์ผ๋ฏ๋ก, ์ด์ ๋ญ๊ฐ๊ฐ ๊ฐ๋ฅํ๋ค.
์ด์ , $\theta$๋ฅผ ์ด์ฉํ์ฌ ํํ๋๋ $f_\theta$๋ฅผ model ๋๋ neural network๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. ๋ํ, ์ด ์ต์ ํ ๋ฌธ์ ๋ฅผ ํธ๋ ์์ ์ training ์ด๋ผ๊ณ ๋ถ๋ฅผ ๊ฒ์ด๋ค. ์ฆ, ํ๋ผ๋ฏธํฐ๋ฅผ ์ด์ฉํด์ ํํํ ๋ชจ๋ธ $f_\theta$๋ฅผ SGD์ ๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ trainingํ๋ค๋ ํํ์ด ๋๋ค. ํ์ฌ ๊ฑฐ์ ๋ชจ๋ ๋ฐฉ๋ฒ๋ค์ด SGD์ ๊ธฐ๋ฐํ๊ณ ์๋ค.
Example : Least square regression
$\mathcal{X} = \R^p, \mathcal{Y} = \R, \Theta = \R^p$์ด๊ณ , ๋ชจ๋ธ $f_\theta(x) = x^T \theta$, $L(y_1, y_2) = \frac{1}{2}(y_1 - y_2)^2$ ์ธ ๋ฌธ์ ๋ฅผ Least square๋ผ๊ณ ๋ถ๋ฅธ๋ค. ์ฆ, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ค์ ๋น์ทํ๊ฒ ๋ง์ถฐ๋ด๋ Linearํ ํจ์๋ฅผ ์ฐ๋ ๊ฒ.
KL-Divergence
As a mathematical tool, ์ด๋ค $p, q \in \R^n$์ด probability mass vector์ผ ๋, ์ฆ $p_i, q_i \geq 0$ ์ด๊ณ $\sum p_i = \sum q_i = 1$์ผ ๋, ์ฐ๋ฆฌ๋ ๋ distribution์ ์ฐจ์ด๋ฅผ ์๊ฐํ๊ณ ์ถ๋ค.
Kullback-Leibler Divergence (KL-Divergence)๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค. \(\DKL{p}{q} = \sum_{i = 1}^{n} p_i \log\frac{p_i}{q_i} = -\sum_{i = 1}^{n} p_i \log q_i + \sum_{i = 1}^{n} p_i \log p_i\)
-
์ด๋ ๋ค์, ์ ๋ณด์ด๋ก ์ ์ฉ์ด๋ก๋ Cross entropy $H(p, q)$ ์ Entropy $H(p)$์ ํฉ์ผ๋ก ์ฐ์ฌ์ง๋ค.
-
ํธ์๋ฅผ ์ํด (์์ฐ์ค๋ฝ๊ฒ), $0 \log (0 / 0) = 0$ ์ผ๋ก, $0 \log 0 = 0$ ์ผ๋ก, $x > 0$์ด๋ฉด $x \log (x / 0) = \infty$ ์ผ๋ก ๋๋ค.
๋ช๊ฐ์ง ์ฑ์ง๋ค์ ์ดํด๋ณด๋ฉด...
- $\DKL{p}{q}$ ๋ ์ผ๋ฐ์ ์ผ๋ก $\DKL{q}{p}$ ์ ๊ฐ์ง ์๋ค. (๊ทธ๋์ metric์ ์๋)
-
$\DKL{p}{q} \geq 0$ ์ด๊ณ , $p \neq q$ ์ด๋ฉด $\DKL{p}{q} > 0$ (๊ณผ์ )
- $\DKL{p}{q} = \infty$ ์ธ ๊ฒฝ์ฐ๋ ๊ฐ๋ฅ.
KL-Divergence๋ฅผ ํ๋ฅ ๋ก ์ notation์ผ๋ก ์ฐ๋ฉด, random variable $I$๊ฐ $p_i$์ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ฐ์ง ๋, \(\DKL{p}{q} = \expectwith{I}{\log\left(\frac{p_i}{q_i}\right)}\) ์ด๋ ๊ฒ expectation์ผ๋ก ์ธ ์๋ ์๋ค.
Symmetrized version $(\DKL{p}{q} + \DKL{q}{p}) / 2$ ๊ฐ์ ๊ฒ์ ์๊ฐํ๋ฉด?
$\Rightarrow$ Jensen-Shannon Divergence๋ผ๊ณ ๋ถ๋ฅด๋๋ฐ, ๊ทธ๋๋ ์ฌ์ ํ
infinity๋ผ๋ ๋ฌธ์ ๊ฐ ๋จ์์ ๋ฉํธ๋ฆญ์ด ๋์ง๋ ์๋๋ค.