Supervised Learning
Supervised Learning
Deep Learning, ๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก Machine Learning์ ์ํ์ ์ผ๋ก ์๊ฐํด ๋ณด๋ฉด, ๊ฒฐ๊ตญ์ โ๋ฏธ์ง์ ํจ์์ ๋ํ, ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ parametric inferenceโ ๋ผ๊ณ ํ ์ ์์ต๋๋ค.
์ด ๋ง์ ์๋ฏธ๋ฅผ ์๊ฐํด ๋ณด๋ฉด์ ์ด์ผ๊ธฐ๋ฅผ ์์ํฉ๋๋ค. ํ๋์ฉ ์์๋ค์ ์ดํด๋ณด๋ฉด์ ์ ์ ๋ฌธ์ ๋ฅผ ๊ตฌ์ฒดํํ ๊ฒ์ ๋๋ค.
๋ฏธ์ง์ ํจ์์ ๋ํ inference
์ด๋ฏธ์ง ๋ถ๋ฅ, ์ฃผ์ ๊ฐ๊ฒฉ์ ์์ธก, ๊ฒ์์ ์ต์ ์ ๋ต ๋ฑ, ๋ง์ ๋ฅ ๋ฌ๋์ ๋ฌธ์ ๋ค์ด ์์ง๋ง ๋งค์ฐ ์ผ๋ฐ์ ์ผ๋ก๋ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ก ์๊ฐํ ์ ์์ต๋๋ค.
Inference on unknown functions
์ด๋ค ๋ฏธ์ง์ ํจ์ $f_\star$๋ฅผ ์๊ณ ์ถ๋ค.
์๋ฅผ ๋ค์ด, ๊ฐ์ ๊ณ ์์ด ์ฌ์ง์ ๊ตฌ๋ถํ๋ ๋ฌธ์ ๋ผ๋ฉด, ๋ค์๊ณผ ๊ฐ์ ์ ์์ญ๊ณผ ์น์ญ์ ํจ์๊ฐ ๋ฉ๋๋ค. \(f : \Set{\text{Photos of cats and dogs}} \to \Set{-1, 1}\) ๋น์ฐํ ์ด์ผ๊ธฐ์ง๋ง, ๊ทธ๋ฅ ํจ์๋ผ๊ณ ํ๋ฉด ๊ฝค ๋ง์ ์ ๋ณด๋ฅผ ์๋๋ผ๋ ์ถ์ธกํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ์ด $f_*$๊ฐ ์ด๋ค ์ข์ ์ฑ์ง๋ค์ ๋ง์กฑํ๊ณ resonableํ๊ฒ ํ๋ํ ๊ฒ์ด๋ผ๊ณ ๊ฐ์ ํฉ๋๋ค (๋ง์ ์ค์ธ๊ณ์ ๋ฌธ์ ๊ฐ ๊ทธ๋ฌํ๊ธฐ ๋๋ฌธ)
๋ฏธ์ง์ ํจ์์ ๋ํ Parametric Inference
์ฃผ์ด์ง ์ ์์ญ๊ณผ ์น์ญ์ ๊ฐ๋ ๋ชจ๋ ํจ์ ๊ฐ์ ๋์์ ์ด๋ก ์ ์ผ๋ก๋ ๋ชฐ๋ผ๋, ์ค์ง์ /๊ณ์ฐ์ ์ผ๋ก๋ ๋ค๋ฃจ๊ธฐ๊ฐ ๋๋ฌด ์ด๋ ต์ต๋๋ค. ๋ฐ๋ผ์, ์ฐ๋ฆฌ๋ ์ด๋ค parametrized function ์ ์๊ฐํฉ๋๋ค.
Parametric Inference
Parameter $\theta$ ์ ์ํด ๊ฒฐ์ ๋๋ ํจ์ $f_\theta$ ๋ค์ ์งํฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ๋ฅผ ์๊ฐํ์. ์ด๋, ์ฐ๋ฆฌ๋ $\mathcal{F}$์์ $f_\star$์ ๊ฐ์ฅ ๊ฐ๊น์ด $f_\theta$๋ฅผ ์ฐพ๊ณ ์ถ๋ค.
์๋ฅผ ๋ค์ด, $\theta \in \R^2$ ์ ๋ํด, $y = \theta_0 x + \theta_1$ ์ด๋ผ๋ ๋ชจ๋ธ๋ก $f_\star : \R \to \R$ ์ ๊ทผ์ฌํ๋ ๊ฒฝ์ฐ๊ฐ ์์ ์ ์์ต๋๋ค. ์ด๋ ์ฆ, ์ด๋ค ์คํจ์ $f_\star$์ ๋ํด ๊ฐ์ฅ ๊ฐ๊น์ด ์ง์ ์ ์ฐพ๊ฒ ๋ค๋ ์๋ฏธ์ ๋๋ค.
์ฌ๊ธฐ์, $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ๋ฅผ ๋ชจ๋ธ(Model) ๋๋ ๊ฐ์ค(Hypothesis) ์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ฐ๋ฆฌ๋ ๋ชจ๋ธ์ด๋ผ๋ ์ฉ์ด๋ฅผ ํํ๊ฒ ์ต๋๋ค.
์ฌ๊ธฐ์ ๋ฐ์ํ๋ ๋ฌธ์ ๋, ๊ฐ๊น์ด ํจ์๋ฅผ ์ด๋ป๊ฒ ์๊ฐํ๋๋๋ ๊ฒ์ ๋๋ค. ์ด๋ ํจ์๊ณต๊ฐ์์์ metric์ด๋ผ๋ ๊ฐ๋ ์ด ๋๋๋ฐโฆ ์ฐ์ ์ ๋ ํจ์ ๊ฐ์ โ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ โ ํ๋ ์ ๋นํ $\mathcal{L}$ ๊ฐ ์ฃผ์ด์ง๋ค๊ณ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. ์ฆ, $\mathcal{L}$ ์ ํจ์ ๋๊ฐ๋ฅผ ๋ฐ์์ 0 ์ด์์ ์ค์๋ฅผ ๋ด๋๋ ํจ์์ ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด $\mathcal{L}$์ ์ด๋ค ๊ฑฐ๋ฆฌ๊ฐ์ ๋๋์ ์ค์ผ๊ฒ ์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๋ ์คํจ์์ ๋ํด์โฆ \(\mathcal{L}(f, g) = \int_{-\infty}^{\infty} (f(x) - g(x))^2\dd{x}\) ์ด๋ฐ ๋๋์ ํจ์๋ฅผ ๋ง๋ ๋ค๊ณ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค. $f$์ $g$๊ฐ ๋ฉ๋ค๋ฉด ์ง๊ด์ ์ผ๋ก ์ด ๊ฐ์ด ์ปค์ง ๊ฒ ๊ฐ์ต๋๋ค. ๋ฌผ๋ก ์ ๋ถ์ด ์๋ ์๋ (๋ฌดํ๋๊ฐ ๋ ์๋) ์๊ฒ ์ง๋ง, ์ ๊ฒ ๋ง์ฝ ์ ๋ถ์ด ๋๋ค๋ฉด ๊ทธ๋ด์ธํ ๊ฑฐ๋ฆฌํจ์์ธ๊ฒ ๊ฐ์ต๋๋ค. ์ด๋์ $\mathcal{L}$ ์ Loss function์ด๋ผ๊ณ ๋ถ๋ฆ ๋๋ค.
Parametric Inference with Loss function
Parameter $\theta$ ์ ์ํด ๊ฒฐ์ ๋๋ ํจ์ $f_\theta$ ๋ค์ ์งํฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์, ํจ์๋ค์ ๊ณต๊ฐ์์ ์ ์๋๋ ์ ์ ํ ๊ฑฐ๋ฆฌ ํจ์ $\mathcal{L}$์ ์๊ฐํ์. ์ด๋, ์ฐ๋ฆฌ๋ $\mathcal{F}$์์ $\mathcal{L}(f_\star, f_\theta)$๋ฅผ ์ต์ํํ๋ $f_\theta$๋ฅผ ์ฐพ๊ณ ์ถ๋ค.
์ฌ์ค ์ ๋ฌธ์ ์์ $\mathcal{L}(f_\star, f_\theta)$ ๊ฐ ๋ฌด์์ ์์กดํ๋์ง ์๊ฐํด๋ณด๋ฉด $f_\star$ ๋ ์ด๋ฏธ ๋์์๋ ๊ฐ์ด๋ฏ๋ก $\theta$์๋ง ์์กดํ๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์,
Parametric Inference with Loss function
Parameter $\theta$ ์ ์ํด ๊ฒฐ์ ๋๋ ํจ์ $f_\theta$ ๋ค์ ์งํฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์, ํจ์๋ค์ ๊ณต๊ฐ์์ ์ ์๋๋ ์ ์ ํ ๊ฑฐ๋ฆฌ ํจ์ $\mathcal{L}$์ ์๊ฐํ์. ์ด๋, ์ฐ๋ฆฌ๋ $\Theta$์์ $\mathcal{L}(\theta) = \mathcal{L}(f_\star, f_\theta)$๋ฅผ ์ต์ํํ๋ $\theta$๋ฅผ ์ฐพ๊ณ ์ถ๋ค.
($\mathcal{L}$ ์ด ํจ์ ๋๊ฐ๋ฅผ ๋ฐ์์ ์ค์๋ฅผ ๋ฑ์ด์ผ ํ๋๋ฐ, $\theta$๋ฅผ ๋ฐ๋ ๊ฒ์ ์๋ฐํ๋ ์๋ชป๋์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ด์ ๋๋ notation์ abuse๋ก ๋์ด๊ฐ์๋ค.)
์ด์ ์ฃผ์ด์ง ๋ฌธ์ ๋ ์ฌ์ค ์ด๋ค ์ต์ ํ ๋ฌธ์ ๊ฐ ๋์์ต๋๋ค.
๋ฏธ์ง์ ํจ์์ ๋ํ, ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ parametric inference
์ฌ๊ธฐ๊น์ง ์ค๋ฉด์ ๋์น๊ฒ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ์ฐ๋ฆฌ๊ฐ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ํผ๋ค๊ณ ์๊ฐํด ๋ณด๊ฒ ์ต๋๋ค.
Problem Example
$y = x\sin x$๋ฅผ $[0, 1]$ ์์ ์ต๋ํ ๊ทผ์ฌํ๋ ์ด์ฐจ์ $f_\theta(x) = ax^2 + bx + c$ ๋ฅผ ์ฐพ๋๋ค
์ด๋ ์์ ์ ๋ถ์ ์ด์ฉํ $\mathcal{L}$์ ์ฐ๋ ค๊ณ ํฉ๋๋ค. ์ฆ, ์ฐ๋ฆฌ๋ ๋ค์์ ์ต์ํํฉ๋๋ค. \(\mathcal{L}(a, b, c) = \int_{0}^{1} (x \sin x - (ax^2 + bx + c))^2 \dd{x}\) ์ด ์์ ์ ์ ๋ถํด์ ์ต์ํํ๋ฉด ๋ฉ๋๋ค. ๊ทธ๋ฌ๋, ์ด ๋ฐฉ๋ฒ์๋ ์ฌ๊ฐํ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ์ฐ๋ฆฌ๊ฐ $\mathcal{L}$ ์ ๊ตฌํ๋๋ฐ $y = x \sin x$ ๋ผ๋ ์ค์ $f_\star$ ๊ฐ์ ์ฌ์ฉํ๊ณ ์๋ค๋ ์ ์ ๋๋ค.
์ค์ ๋ฌธ์ ์์๋ ์ด๋ฐ ์ ๋ณด๊ฐ ์ฃผ์ด์ง์ง ์์ต๋๋ค. $f_\star$๋ฅผ ๊ตฌํ๋๊ฒ ๋ชฉ์ ์ด๋ฏ๋ก ์ด๋ฅผ $\mathcal{L}$ ๊ณ์ฐ์์ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ์ ํ๊ฐ ์๋ชป๋์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ, $\mathcal{L}(f_\star, f_\theta)$๋ฅผ ๊ณ์ฐํ๋ ค๋ฉด $f_\star$ ๋ฅผ ์์์ผ ํฉ๋๋ค. ์ ๋ถ๊ณ์ฐ๊ฐ์๊ฑธ ํ ์์๋ค๋ฉด ์ ์ด์ $f_\star$๊ฐ ๋ฏธ์ง์ ํจ์๊ฐ ์๋ ๊ฒ์ ๋๋ค.
์ฌ๊ธฐ์์ ๋ฐ์ดํฐ ๊ฐ ๋ฑ์ฅํฉ๋๋ค. ์ฆโฆ ์ฐ๋ฆฌ๊ฐ ๋ฏธ์ง์ ํจ์์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ, $x^1, x^2, \dots x^n$ ์ ๋ํ์ฌ ์ ๋ณด $f_\star(x^i) = y^i$ ๋ง์ ์ด๋ฏธ ์๊ณ ์๋ ๊ฒฝ์ฐ์ ๋๋ค. ์ด๋ฅผ โLabeled Dataโ ๋ฅผ ๊ฐ์ง๊ณ ์๋ค๊ณ ์๊ฐํ๋ฉด ๋๊ฒ ์ต๋๋ค.
- ์ฐ๋ฆฌ๋ $x^i$๋ค์์ ์๊ณ ์๋ค๋ ์ ๋ณด๋ฅผ ์ต๋ํ ์ด์ฉํ๊ณ ์ถ๊ธฐ ๋๋ฌธ์, ์ด๋ค ์๋ก์ด ํ๋ํฐ $\ell$ ์ ์ ์ํด์, $\sum_i \ell(f(x^i), g(x^i))$๊ฐ ์์ $g$๋ฅผ $f$์ ๊ทผ์ฌ-ํจ์๋ก ์๊ฐํ๊ณ ์ถ์ต๋๋ค. ์ด๋ฅผ Empirical Risk Minimization ์ด๋ผ ํฉ๋๋ค.
๋ฐ๋ผ์, ์ต์ข
์ ์ธ Supervised Learning์ ๋ฌธ์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
Parametric Inference with Loss function
Parameter $\theta$ ์ ์ํด ๊ฒฐ์ ๋๋ ํจ์ $f_\theta$ ๋ค์ ์งํฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์, ๊ฐ๋ค์ ๊ณต๊ฐ์์ ์ ์๋๋ ์ ์ ํ ๊ฑฐ๋ฆฌ ํจ์ $\ell$์ ์๊ฐํ์. ์ด๋, ์ฐ๋ฆฌ๋ $\Theta$์์ $\mathcal{L}(\theta) = \sum \ell(f_\star(x^i), f_\theta(x^i))$๋ฅผ ์ต์ํํ๋ $\theta$๋ฅผ ์ฐพ๊ณ ์ถ๋ค.
๊ทธ๋ฆฌ๊ณ $f_\star$๊ฐ ์ ์ ํ๊ฒ ์ข์ ์ฑ์ง์ ๊ฐ๊ธฐ ๋๋ฌธ์, $\ell$์ ์ถฉ๋ถํ ์ ๋์์ธํ๋ค๋ฉด ์ฃผ์ด์ง ๋ฐ์ดํฐ๊ฐ ์๋ ์๋ก์ด ๋ฐ์ดํฐ $u$์ ๋ํด์๋ $f_\star(u) \approx f_\theta(u)$ ์ผ ์ ์์ ๊ฒ์ด๋ผ๊ณ ๋ฏฟ์ต๋๋ค. ๊ฒฐ๊ตญ ์ฐ๋ฆฌ๋ ๋ณธ์ ์๋ ๋ฐ์ดํฐ๊ฐ ์๋๋ผ ์๋ก์ด ๋ฐ์ดํฐ์์ ์ ์๋ํ๋ ๋ชจ๋ธ์ ์ฐพ๋๊ฒ์ด ๋ชฉ์ ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.
์์ผ๋ก ์ฌ๋ฌ ํฌ์คํ ์ ํตํด, ๊ฐ๊ฐ์ ๋ฌธ์ ๋ค์ ํ๋์ฉ ๊ณต๋ถํด๋ณผ ๊ฒ์ ๋๋ค :)
ํฌ์คํ ๋ค ๋ชจ์๋ณด๊ธฐ
- ๊ฐ์ฅ ์ค์ํ ๋ฌธ์ ๋ ๋น์ฐํ ์ด๋ค $\theta$๋ฅผ ์ก์์, $g_\theta$๋ฅผ ๋ง๋๋์ง์ ๋ฌธ์ ์
๋๋ค. ์ฆ, ๋ค์ํ ๋ชจ๋ธ ์ด ์ฐ๊ตฌ๋์ด์ผ ํ๋ฉฐ, ๊ฐ ๋ชจ๋ธ๋ง๋ค ํํํ ์ ์๋ ํจ์๋ค์ ๊ณต๊ฐ ์ด ๋ค๋ฅด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ๊ณ ๋ คํด์ผ ํฉ๋๋ค. ๋ชจ๋ธ์ ๋ํด์๋ ๋ง์ง๋ง์ ๋ค์ ๋์ดํฉ๋๋ค.
- ๊ธฐ๋ณธ์ ์ธ ์๋ฆฌํต๊ณ? ์ง์์ด ์์ผ๋ฉด ๋ง์ ๋์์ด ๋ฉ๋๋ค.
- Empirical Risk Minimization
- KL-Divergence
-
Maximum Likelihood Estimation
- ๊ธฐ๋ณธ์ ์ธ ์๋ฆฌํต๊ณ? ์ง์์ด ์์ผ๋ฉด ๋ง์ ๋์์ด ๋ฉ๋๋ค.
- $\mathfrak{L}(\theta)$๊ฐ ์ด๋ฏธ ์๋ ค์ ธ ์๋ค๋ฉด, ์ด๋ฅผ ์ด๋ป๊ฒ ์ต์ํํ ์ ์์๊น์? $\mathfrak{L}$์ด ์ข์ ์ฑ์ง (๋ณผ๋ก์ฑ ๋ฑ) ์ ๋ง์กฑํ์ง ์๋๋ค๋ฉด, ์ผ๋ฐ์ ์ผ๋ก ์ด๋ ๋งค์ฐ ์ด๋ ต์ต๋๋ค. ์ต์ ํํ๋ ๋ฐฉ๋ฒ๊ณผ ๊ฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ ๋ฑ์ ๋ํด ๊ณต๋ถํด์ผ ํฉ๋๋ค.
- ์ฐ๋ฆฌ๋ $\sum_i \ell(f_\star(x^i), f_\theta(x^i))$๋ฅผ ์ต์ํํ์ง๋ง, ์ฌ์ค ๋ฐ๋ผ๋ ๊ฒ์ $x^1 \dots x^n$ ์ ์๋ ์๋ก์ด ๋ฐ์ดํฐ $xโ$๊ฐ ๋ค์ด์์ ๋, $f(xโ)$ ์ด $g_\theta(xโ)$ ์ ๊ฐ๊น๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ์ฆ, ๊ฐ์ ๊ณ ์์ด ์ฌ์ง์ ๋ง์ด ํ๋ จํ ๋ชจ๋ธ์ ํ๋ฒ๋ ๋ณธ์ ์๋ ๊ฐ/๊ณ ์์ด ์ฌ์ง์ ๋ํด์๋ ์ ์๋ํ๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ์ด๋ฅผ Generalization์ด๋ผ ํฉ๋๋ค.
- ๊ฐ์ฅ ๊ฐ๋จํ Model๋ค์ธ Support Vector Machine, Logistic Regression, Softmax Regression ๋ฑ์ ๋ํด ์์๋ด
๋๋ค.
- Support Vector Machine ์์๋ณด๊ธฐ
-
($\bigstar$) More on SVM : Kernel Methods (1) (2)
- ๋ฅ ๋ฌ๋์ ์์์ด๋ผ๊ณ ํ ์ ์๋, MultiLayer Perceptron์ ๋ํด ๊ณต๋ถํฉ๋๋ค.
- Multi-Layer Perceptron
- Softmax์ MLP๋ก MNIST ํ์ด๋ณด๊ธฐ : MNIST ์๊ธ์จ ์ซ์์ธ์ with Softmax / MLP
-
($\bigstar$) Universal Approximation Theorem
- ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๊ฐ์ฅ ๋ง์ด ์ฐ์ด๋, Convolution ๊ธฐ๋ฐ์ ๋ด๋ด ๋คํธ์ํฌ์ ๋ํด ๊ณต๋ถํฉ๋๋ค.
- Convolutionary Neural Networks : CNN ๊ฐ์.
- LeNet์ผ๋ก MNIST ํ์ด๋ณด๊ธฐ
- ImageNet Challenge์ ์ญ์ฌ๋ฅผ ๋ฐ๋ผ๊ฐ๋ฉฐ, ๋ช๊ฐ์ง ์ฑ๊ณต์ ์ธ Image classification ๋ชจ๋ธ๋ค์ ๋ํด ๊ณต๋ถํฉ๋๋ค.
CIFAR10์์์ ๊ฒฐ๊ณผ ์ ๋ฆฌ- CNN Architecture : AlexNet
- CNN Architecture : VGGNet
- [CNN Architecture : GoogLeNet]
- [CNN Architecture : ResNet]
- [CNN Architecture : SENet]