Back to : deep-learning-study
Contents

Supervised Learning

Deep Learning, ๋ณด๋‹ค ์ผ๋ฐ˜์ ์œผ๋กœ Machine Learning์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ƒ๊ฐํ•ด ๋ณด๋ฉด, ๊ฒฐ๊ตญ์€ โ€œ๋ฏธ์ง€์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ, ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ parametric inferenceโ€ ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ง์˜ ์˜๋ฏธ๋ฅผ ์ƒ๊ฐํ•ด ๋ณด๋ฉด์„œ ์ด์•ผ๊ธฐ๋ฅผ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜์”ฉ ์š”์†Œ๋“ค์„ ์‚ดํŽด๋ณด๋ฉด์„œ ์ ์  ๋ฌธ์ œ๋ฅผ ๊ตฌ์ฒดํ™”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๋ฏธ์ง€์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ inference
์ด๋ฏธ์ง€ ๋ถ„๋ฅ˜, ์ฃผ์‹ ๊ฐ€๊ฒฉ์˜ ์˜ˆ์ธก, ๊ฒŒ์ž„์˜ ์ตœ์  ์ „๋žต ๋“ฑ, ๋งŽ์€ ๋”ฅ ๋Ÿฌ๋‹์˜ ๋ฌธ์ œ๋“ค์ด ์žˆ์ง€๋งŒ ๋งค์šฐ ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Inference on unknown functions
์–ด๋–ค ๋ฏธ์ง€์˜ ํ•จ์ˆ˜ $f_\star$๋ฅผ ์•Œ๊ณ  ์‹ถ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๊ฐœ์™€ ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ๊ตฌ๋ถ„ํ•˜๋Š” ๋ฌธ์ œ๋ผ๋ฉด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ •์˜์—ญ๊ณผ ์น˜์—ญ์„ ํ•จ์ˆ˜๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. \(f : \Set{\text{Photos of cats and dogs}} \to \Set{-1, 1}\) ๋‹น์—ฐํ•œ ์ด์•ผ๊ธฐ์ง€๋งŒ, ๊ทธ๋ƒฅ ํ•จ์ˆ˜๋ผ๊ณ  ํ•˜๋ฉด ๊ฝค ๋งŽ์€ ์ •๋ณด๋ฅผ ์•Œ๋”๋ผ๋„ ์ถ”์ธกํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ์ด $f_*$๊ฐ€ ์–ด๋–ค ์ข‹์€ ์„ฑ์งˆ๋“ค์„ ๋งŒ์กฑํ•˜๊ณ  resonableํ•˜๊ฒŒ ํ–‰๋™ํ•  ๊ฒƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค (๋งŽ์€ ์‹ค์„ธ๊ณ„์˜ ๋ฌธ์ œ๊ฐ€ ๊ทธ๋Ÿฌํ•˜๊ธฐ ๋•Œ๋ฌธ)


๋ฏธ์ง€์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ Parametric Inference
์ฃผ์–ด์ง„ ์ •์˜์—ญ๊ณผ ์น˜์—ญ์„ ๊ฐ–๋Š” ๋ชจ๋“  ํ•จ์ˆ˜ ๊ฐ™์€ ๋Œ€์ƒ์€ ์ด๋ก ์ ์œผ๋กœ๋Š” ๋ชฐ๋ผ๋„, ์‹ค์งˆ์ /๊ณ„์‚ฐ์ ์œผ๋กœ๋Š” ๋‹ค๋ฃจ๊ธฐ๊ฐ€ ๋„ˆ๋ฌด ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ์šฐ๋ฆฌ๋Š” ์–ด๋–ค parametrized function ์„ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค. Parametric Inference
Parameter $\theta$ ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ํ•จ์ˆ˜ $f_\theta$ ๋“ค์˜ ์ง‘ํ•ฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ๋ฅผ ์ƒ๊ฐํ•˜์ž. ์ด๋•Œ, ์šฐ๋ฆฌ๋Š” $\mathcal{F}$์—์„œ $f_\star$์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด $f_\theta$๋ฅผ ์ฐพ๊ณ  ์‹ถ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, $\theta \in \R^2$ ์— ๋Œ€ํ•ด, $y = \theta_0 x + \theta_1$ ์ด๋ผ๋Š” ๋ชจ๋ธ๋กœ $f_\star : \R \to \R$ ์„ ๊ทผ์‚ฌํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ฆ‰, ์–ด๋–ค ์‹คํ•จ์ˆ˜ $f_\star$์— ๋Œ€ํ•ด ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ์ง์„  ์„ ์ฐพ๊ฒ ๋‹ค๋Š” ์˜๋ฏธ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ, $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ๋ฅผ ๋ชจ๋ธ(Model) ๋˜๋Š” ๊ฐ€์„ค(Hypothesis) ์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ์ด๋ผ๋Š” ์šฉ์–ด๋ฅผ ํƒํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ๋Š”, ๊ฐ€๊นŒ์šด ํ•จ์ˆ˜๋ฅผ ์–ด๋–ป๊ฒŒ ์ƒ๊ฐํ•˜๋Š๋ƒ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ํ•จ์ˆ˜๊ณต๊ฐ„์—์„œ์˜ metric์ด๋ผ๋Š” ๊ฐœ๋…์ด ๋˜๋Š”๋ฐโ€ฆ ์šฐ์„ ์€ ๋‘ ํ•จ์ˆ˜ ๊ฐ„์˜ โ€œ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •โ€ ํ•˜๋Š” ์ ๋‹นํ•œ $\mathcal{L}$ ๊ฐ€ ์ฃผ์–ด์ง„๋‹ค๊ณ  ์ƒ๊ฐํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ฆ‰, $\mathcal{L}$ ์€ ํ•จ์ˆ˜ ๋‘๊ฐœ๋ฅผ ๋ฐ›์•„์„œ 0 ์ด์ƒ์˜ ์‹ค์ˆ˜๋ฅผ ๋‚ด๋†“๋Š” ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด $\mathcal{L}$์€ ์–ด๋–ค ๊ฑฐ๋ฆฌ๊ฐ™์€ ๋Š๋‚Œ์„ ์ค˜์•ผ๊ฒ ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‘ ์‹คํ•จ์ˆ˜์— ๋Œ€ํ•ด์„œโ€ฆ \(\mathcal{L}(f, g) = \int_{-\infty}^{\infty} (f(x) - g(x))^2\dd{x}\) ์ด๋Ÿฐ ๋Š๋‚Œ์˜ ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“ ๋‹ค๊ณ  ์ƒ๊ฐํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. $f$์™€ $g$๊ฐ€ ๋ฉ€๋‹ค๋ฉด ์ง๊ด€์ ์œผ๋กœ ์ด ๊ฐ’์ด ์ปค์งˆ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ ๋ถ„์ด ์•ˆ๋ ์ˆ˜๋„ (๋ฌดํ•œ๋Œ€๊ฐ€ ๋ ์ˆ˜๋„) ์žˆ๊ฒ ์ง€๋งŒ, ์ €๊ฒŒ ๋งŒ์•ฝ ์ ๋ถ„์ด ๋œ๋‹ค๋ฉด ๊ทธ๋Ÿด์‹ธํ•œ ๊ฑฐ๋ฆฌํ•จ์ˆ˜์ธ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋•Œ์˜ $\mathcal{L}$ ์„ Loss function์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.

Parametric Inference with Loss function
Parameter $\theta$ ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ํ•จ์ˆ˜ $f_\theta$ ๋“ค์˜ ์ง‘ํ•ฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์™€, ํ•จ์ˆ˜๋“ค์˜ ๊ณต๊ฐ„์—์„œ ์ •์˜๋˜๋Š” ์ ์ ˆํ•œ ๊ฑฐ๋ฆฌ ํ•จ์ˆ˜ $\mathcal{L}$์„ ์ƒ๊ฐํ•˜์ž. ์ด๋•Œ, ์šฐ๋ฆฌ๋Š” $\mathcal{F}$์—์„œ $\mathcal{L}(f_\star, f_\theta)$๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” $f_\theta$๋ฅผ ์ฐพ๊ณ  ์‹ถ๋‹ค.

์‚ฌ์‹ค ์œ„ ๋ฌธ์ œ์—์„œ $\mathcal{L}(f_\star, f_\theta)$ ๊ฐ€ ๋ฌด์—‡์— ์˜์กดํ•˜๋Š”์ง€ ์ƒ๊ฐํ•ด๋ณด๋ฉด $f_\star$ ๋Š” ์ด๋ฏธ ๋‚˜์™€์žˆ๋Š” ๊ฐ’์ด๋ฏ€๋กœ $\theta$์—๋งŒ ์˜์กดํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ,

Parametric Inference with Loss function
Parameter $\theta$ ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ํ•จ์ˆ˜ $f_\theta$ ๋“ค์˜ ์ง‘ํ•ฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์™€, ํ•จ์ˆ˜๋“ค์˜ ๊ณต๊ฐ„์—์„œ ์ •์˜๋˜๋Š” ์ ์ ˆํ•œ ๊ฑฐ๋ฆฌ ํ•จ์ˆ˜ $\mathcal{L}$์„ ์ƒ๊ฐํ•˜์ž. ์ด๋•Œ, ์šฐ๋ฆฌ๋Š” $\Theta$์—์„œ $\mathcal{L}(\theta) = \mathcal{L}(f_\star, f_\theta)$๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” $\theta$๋ฅผ ์ฐพ๊ณ  ์‹ถ๋‹ค.

($\mathcal{L}$ ์ด ํ•จ์ˆ˜ ๋‘๊ฐœ๋ฅผ ๋ฐ›์•„์„œ ์‹ค์ˆ˜๋ฅผ ๋ฑ‰์–ด์•ผ ํ•˜๋Š”๋ฐ, $\theta$๋ฅผ ๋ฐ›๋Š” ๊ฒƒ์€ ์—„๋ฐ€ํžˆ๋Š” ์ž˜๋ชป๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด์ •๋„๋Š” notation์˜ abuse๋กœ ๋„˜์–ด๊ฐ‘์‹œ๋‹ค.)

์ด์ œ ์ฃผ์–ด์ง„ ๋ฌธ์ œ๋Š” ์‚ฌ์‹ค ์–ด๋–ค ์ตœ์ ํ™” ๋ฌธ์ œ๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.


๋ฏธ์ง€์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ, ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•œ parametric inference

์—ฌ๊ธฐ๊นŒ์ง€ ์˜ค๋ฉด์„œ ๋†“์นœ๊ฒŒ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์šฐ๋ฆฌ๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋ฌธ์ œ๋ฅผ ํ‘ผ๋‹ค๊ณ  ์ƒ๊ฐํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

Problem Example
$y = x\sin x$๋ฅผ $[0, 1]$ ์—์„œ ์ตœ๋Œ€ํ•œ ๊ทผ์‚ฌํ•˜๋Š” ์ด์ฐจ์‹ $f_\theta(x) = ax^2 + bx + c$ ๋ฅผ ์ฐพ๋Š”๋‹ค

์ด๋•Œ ์œ„์˜ ์ ๋ถ„์„ ์ด์šฉํ•œ $\mathcal{L}$์„ ์“ฐ๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์šฐ๋ฆฌ๋Š” ๋‹ค์Œ์„ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. \(\mathcal{L}(a, b, c) = \int_{0}^{1} (x \sin x - (ax^2 + bx + c))^2 \dd{x}\) ์ด ์‹์€ ์ž˜ ์ ๋ถ„ํ•ด์„œ ์ตœ์†Œํ™”ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ์ด ๋ฐฉ๋ฒ•์—๋Š” ์‹ฌ๊ฐํ•œ ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ $\mathcal{L}$ ์„ ๊ตฌํ•˜๋Š”๋ฐ $y = x \sin x$ ๋ผ๋Š” ์‹ค์ œ $f_\star$ ๊ฐ’์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

์‹ค์ œ ๋ฌธ์ œ์—์„œ๋Š” ์ด๋Ÿฐ ์ •๋ณด๊ฐ€ ์ฃผ์–ด์ง€์ง€ ์•Š์Šต๋‹ˆ๋‹ค. $f_\star$๋ฅผ ๊ตฌํ•˜๋Š”๊ฒŒ ๋ชฉ์ ์ด๋ฏ€๋กœ ์ด๋ฅผ $\mathcal{L}$ ๊ณ„์‚ฐ์—์„œ ์‚ฌ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์€ ์„ ํ›„๊ฐ€ ์ž˜๋ชป๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋Ÿฐ๋ฐ, $\mathcal{L}(f_\star, f_\theta)$๋ฅผ ๊ณ„์‚ฐํ•˜๋ ค๋ฉด $f_\star$ ๋ฅผ ์•Œ์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ ๋ถ„๊ณ„์‚ฐ๊ฐ™์€๊ฑธ ํ• ์ˆ˜์žˆ๋‹ค๋ฉด ์• ์ดˆ์— $f_\star$๊ฐ€ ๋ฏธ์ง€์˜ ํ•จ์ˆ˜๊ฐ€ ์•„๋‹ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์—์„œ ๋ฐ์ดํ„ฐ ๊ฐ€ ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰โ€ฆ ์šฐ๋ฆฌ๊ฐ€ ๋ฏธ์ง€์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ, $x^1, x^2, \dots x^n$ ์— ๋Œ€ํ•˜์—ฌ ์ •๋ณด $f_\star(x^i) = y^i$ ๋งŒ์€ ์ด๋ฏธ ์•Œ๊ณ  ์žˆ๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ โ€œLabeled Dataโ€ ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ์šฐ๋ฆฌ๋Š” $x^i$๋“ค์—์„œ ์•Œ๊ณ  ์žˆ๋‹ค๋Š” ์ •๋ณด๋ฅผ ์ตœ๋Œ€ํ•œ ์ด์šฉํ•˜๊ณ  ์‹ถ๊ธฐ ๋•Œ๋ฌธ์—, ์–ด๋–ค ์ƒˆ๋กœ์šด ํŽ˜๋„ํ‹ฐ $\ell$ ์„ ์ •์˜ํ•ด์„œ, $\sum_i \ell(f(x^i), g(x^i))$๊ฐ€ ์ž‘์€ $g$๋ฅผ $f$์˜ ๊ทผ์‚ฌ-ํ•จ์ˆ˜๋กœ ์ƒ๊ฐํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ Empirical Risk Minimization ์ด๋ผ ํ•ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ, ์ตœ์ข…์ ์ธ Supervised Learning์˜ ๋ฌธ์ œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. Parametric Inference with Loss function
Parameter $\theta$ ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ํ•จ์ˆ˜ $f_\theta$ ๋“ค์˜ ์ง‘ํ•ฉ $\mathcal{F} = \Setcond{f_\theta}{\theta \in \Theta}$ ์™€, ๊ฐ’๋“ค์˜ ๊ณต๊ฐ„์—์„œ ์ •์˜๋˜๋Š” ์ ์ ˆํ•œ ๊ฑฐ๋ฆฌ ํ•จ์ˆ˜ $\ell$์„ ์ƒ๊ฐํ•˜์ž. ์ด๋•Œ, ์šฐ๋ฆฌ๋Š” $\Theta$์—์„œ $\mathcal{L}(\theta) = \sum \ell(f_\star(x^i), f_\theta(x^i))$๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” $\theta$๋ฅผ ์ฐพ๊ณ  ์‹ถ๋‹ค.

๊ทธ๋ฆฌ๊ณ  $f_\star$๊ฐ€ ์ ์ ˆํ•˜๊ฒŒ ์ข‹์€ ์„ฑ์งˆ์„ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์—, $\ell$์„ ์ถฉ๋ถ„ํžˆ ์ž˜ ๋””์ž์ธํ•œ๋‹ค๋ฉด ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹Œ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ $u$์— ๋Œ€ํ•ด์„œ๋„ $f_\star(u) \approx f_\theta(u)$ ์ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ๊ณ  ๋ฏฟ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ์šฐ๋ฆฌ๋Š” ๋ณธ์  ์žˆ๋Š” ๋ฐ์ดํ„ฐ๊ฐ€ ์•„๋‹ˆ๋ผ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์—์„œ ์ž˜ ์ž‘๋™ํ•˜๋Š” ๋ชจ๋ธ์„ ์ฐพ๋Š”๊ฒƒ์ด ๋ชฉ์ ์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

์•ž์œผ๋กœ ์—ฌ๋Ÿฌ ํฌ์ŠคํŒ…์„ ํ†ตํ•ด, ๊ฐ๊ฐ์˜ ๋ฌธ์ œ๋“ค์„ ํ•˜๋‚˜์”ฉ ๊ณต๋ถ€ํ•ด๋ณผ ๊ฒƒ์ž…๋‹ˆ๋‹ค :)


ํฌ์ŠคํŒ…๋“ค ๋ชจ์•„๋ณด๊ธฐ

  • ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ฌธ์ œ๋Š” ๋‹น์—ฐํžˆ ์–ด๋–ค $\theta$๋ฅผ ์žก์•„์„œ, $g_\theta$๋ฅผ ๋งŒ๋“œ๋Š”์ง€์˜ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์ฆ‰, ๋‹ค์–‘ํ•œ ๋ชจ๋ธ ์ด ์—ฐ๊ตฌ๋˜์–ด์•ผ ํ•˜๋ฉฐ, ๊ฐ ๋ชจ๋ธ๋งˆ๋‹ค ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ํ•จ์ˆ˜๋“ค์˜ ๊ณต๊ฐ„ ์ด ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฅผ ๊ณ ๋ คํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์— ๋Œ€ํ•ด์„œ๋Š” ๋งˆ์ง€๋ง‰์— ๋‹ค์‹œ ๋‚˜์—ดํ•ฉ๋‹ˆ๋‹ค.
    • ๊ธฐ๋ณธ์ ์ธ ์ˆ˜๋ฆฌํ†ต๊ณ„? ์ง€์‹์ด ์žˆ์œผ๋ฉด ๋งŽ์€ ๋„์›€์ด ๋ฉ๋‹ˆ๋‹ค.
  • $\mathfrak{L}(\theta)$๊ฐ€ ์ด๋ฏธ ์•Œ๋ ค์ ธ ์žˆ๋‹ค๋ฉด, ์ด๋ฅผ ์–ด๋–ป๊ฒŒ ์ตœ์†Œํ™”ํ• ์ˆ˜ ์žˆ์„๊นŒ์š”? $\mathfrak{L}$์ด ์ข‹์€ ์„ฑ์งˆ (๋ณผ๋ก์„ฑ ๋“ฑ) ์„ ๋งŒ์กฑํ•˜์ง€ ์•Š๋Š”๋‹ค๋ฉด, ์ผ๋ฐ˜์ ์œผ๋กœ ์ด๋Š” ๋งค์šฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•๊ณผ ๊ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ ๋“ฑ์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ์šฐ๋ฆฌ๋Š” $\sum_i \ell(f_\star(x^i), f_\theta(x^i))$๋ฅผ ์ตœ์†Œํ™”ํ–ˆ์ง€๋งŒ, ์‚ฌ์‹ค ๋ฐ”๋ผ๋Š” ๊ฒƒ์€ $x^1 \dots x^n$ ์— ์—†๋Š” ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ $xโ€™$๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ, $f(xโ€™)$ ์ด $g_\theta(xโ€™)$ ์— ๊ฐ€๊น๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค. ์ฆ‰, ๊ฐœ์™€ ๊ณ ์–‘์ด ์‚ฌ์ง„์„ ๋งŽ์ด ํ›ˆ๋ จํ•œ ๋ชจ๋ธ์€ ํ•œ๋ฒˆ๋„ ๋ณธ์ ์—†๋Š” ๊ฐœ/๊ณ ์–‘์ด ์‚ฌ์ง„์— ๋Œ€ํ•ด์„œ๋„ ์ž˜ ์ž‘๋™ํ•˜๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค. ์ด๋ฅผ Generalization์ด๋ผ ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ Model๋“ค์ธ Support Vector Machine, Logistic Regression, Softmax Regression ๋“ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ด…๋‹ˆ๋‹ค.
  • ๋”ฅ ๋Ÿฌ๋‹์˜ ์‹œ์ž‘์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š”, MultiLayer Perceptron์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ฉ๋‹ˆ๋‹ค.
  • ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์— ๊ฐ€์žฅ ๋งŽ์ด ์“ฐ์ด๋Š”, Convolution ๊ธฐ๋ฐ˜์˜ ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ฉ๋‹ˆ๋‹ค.
  • ImageNet Challenge์˜ ์—ญ์‚ฌ๋ฅผ ๋”ฐ๋ผ๊ฐ€๋ฉฐ, ๋ช‡๊ฐ€์ง€ ์„ฑ๊ณต์ ์ธ Image classification ๋ชจ๋ธ๋“ค์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ฉ๋‹ˆ๋‹ค.
    CIFAR10์—์„œ์˜ ๊ฒฐ๊ณผ ์ •๋ฆฌ