Back to : deep-learning-study
Contents

Overfitting / Underfitting

์ด ๋ธ”๋กœ๊ทธ์—์„œ๋„ ์—ฌ๋Ÿฌ ์ฐจ๋ก€ ๊ธฐ๋ณธ ์„ธํŒ…์œผ๋กœ ์–ธ๊ธ‰ํ•œ, Deep learning์˜ ๊ธฐ๋ณธ ํ”„๋ ˆ์ž„์›Œํฌ (์‚ฌ์‹ค์€, ์ข€๋” generalํ•˜๊ฒŒ machine learning ๋‚ด์ง€๋Š” regression ์ „์ฒด์— ์ ์šฉ๋˜๋Š” ํ”„๋ ˆ์ž„์ž…๋‹ˆ๋‹ค) ๋ฅผ ๋Œ์•„๋ณด๋Š” ๊ฒƒ์œผ๋กœ ์‹œ์ž‘ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

  • ๋ฏธ์ง€์˜ ํ•จ์ˆ˜ $f$์— ๋Œ€ํ•ด ์•Œ๊ณ ์ž ํ•˜๋Š”๋ฐ,
  • ๋ชจ๋“  ์ง€์ ์ด ์•„๋‹Œ ์–ด๋–ค ์ง€์  $x_i$ ๋“ค์—์„œ๋งŒ ๊ทธ ๊ฐ’ $f(x^i) = y^i$ ๋ฅผ ์•Œ๊ณ  ์žˆ๊ณ ,
  • ๊ทธ๋ž˜์„œ ์–ด๋–ค ํŽ˜๋„ํ‹ฐ $\ell$ ์„ ์ •์˜ํ•ด์„œ, $\sum_i \ell(f(x^i), g(x^i))$๊ฐ€ ์ž‘์€ $g$๋ฅผ $f$์˜ ๊ทผ์‚ฌ-ํ•จ์ˆ˜๋กœ ์ƒ๊ฐํ•˜๊ณ  ์‹ถ์Šต๋‹ˆ๋‹ค.
  • ๊ทธ๋Ÿฐ๋ฐ ์ด $g$๋ฅผ ๋ชจ๋“  ํ•จ์ˆ˜์˜ ๊ณต๊ฐ„์—์„œ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€๋Šฅํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ,
  • ์–ด๋–ค parameter $\theta$ ์— ์˜ํ•ด ํ‘œํ˜„๋˜๋Š” ํ•จ์ˆ˜๊ณต๊ฐ„์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ $g_\theta$๋งŒ์„ ์ƒ๊ฐํ•˜๋ฉฐ,
  • $\minimize \sum_i \ell(f(x^i), g_\theta(x^i))$ by moving $\theta$๋กœ ์ƒ๊ฐํ•ฉ๋‹ˆ๋‹ค.

Optimizer์— ๊ด€ํ•œ ํฌ์ŠคํŒ… ์—์„œ๋Š” ์ด ์ค‘, ๊ทธ๋ž˜์„œ ์–ด๋–ป๊ฒŒ ์ตœ์ ํ™”ํ• ์ง€ ๋ฅผ ์ƒ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ๋Š”, ์กฐ๊ธˆ ๋‹ค๋ฅธ ๋ฌธ์ œ๋ฅผ ์ƒ๊ฐํ•ด ๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

์šฐ๋ฆฌ๊ฐ€ ๋”ฅ๋Ÿฌ๋‹์ด๋“ , ์ผ๋ฐ˜์ ์ธ ๋จธ์‹ ๋Ÿฌ๋‹์ด๋“  ์ด์šฉํ•ด์„œ $f$๋ฅผ ์•Œ์•„๋‚ด๋ ค๋Š” ์ด์œ ๋Š” ์›๋ž˜ ์ด๋ฏธ ์ฃผ์–ด์ง„ $x^i$ ๋“ค ์™ธ์˜, ์ƒˆ๋กœ์šด ์  $z$๊ฐ€ ๋“ค์–ด์™”์„ ๋•Œ $f(z)$๋ฅผ ์•Œ๊ณ ์ž ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ์‚ฌ์ง„ 1๋งŒ ์žฅ์„ ์ด์šฉํ•ด์„œ ๊ฐœ์™€ ๊ณ ์–‘์ด๋ฅผ ๊ตฌ๋ถ„ํ•˜๋Š” ํ•จ์ˆ˜ $g_\theta$๋ฅผ ํ›ˆ๋ จํ•˜๊ณ  ๋‚˜๋ฉด, ํ›ˆ๋ จ๊ณผ์ •์—์„œ ํ•œ๋ฒˆ๋„ ๋ณธ ์  ์—†๋Š” ์ƒˆ๋กœ์šด $z$๊ฐ€ ๊ฐœ์ธ์ง€ ๊ณ ์–‘์ด์ธ์ง€๋ฅผ ์•Œ์•„๋‚ผ ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์œ„ ํ”„๋ ˆ์ž„์€ ๊ทธ๋ž˜์„œ ๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ์˜๋ฌธ์ด ์ƒ๊ธธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • $\ell$์€ ํŽ˜๋„ํ‹ฐ์ด๋ฏ€๋กœ, $z$๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ํŒ์ •ํ•˜๋Š” ๊ฒƒ์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด $\ell(f(z), g_\theta(z))$ ๊ฐ€ ์ž‘์•˜์œผ๋ฉด ์ข‹๊ฒ ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ์šฐ๋ฆฌ๋Š” $x^i$๋“ค์— ๋Œ€ํ•ด์„œ $g_\theta$๋ฅผ ํ›ˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค. $f$๊ฐ€ ๋งค์šฐ ์ด์ƒํ•˜๊ฒŒ ์ƒ๊ธด ํ•จ์ˆ˜๋ผ๋ฉด, $g_\theta$๋ฅผ ์•„๋ฌด๋ฆฌ ์ž˜ ์ตœ์ ํ™”ํ•ด ์™”๋”๋ผ๋„ ์™„์ „ํžˆ ๋‹ค๋ฅธ ์ด์Šˆ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์• ์ดˆ์—, $g$๊ฐ€ ๋ชจ๋“  ํ•จ์ˆ˜์˜ ๊ณต๊ฐ„์ด ์•„๋‹Œ $g_\theta$๋กœ ํ‘œํ˜„๋˜๋Š” ํ•จ์ˆ˜๊ณต๊ฐ„์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ๋งŒ์„ ์ƒ๊ฐํ•˜๋Š”๋ฐ $f$๋ž‘ ์ถฉ๋ถ„ํžˆ ๊ฐ€๊นŒ์šด ํ•จ์ˆ˜๊ฐ€ $g_\theta$๋“ค์˜ ์ง‘ํ•ฉ์— ์žˆ๊ธฐ๋Š” ํ• ์ง€๋„ ๋ชจ๋ฅผ ์ผ์ž…๋‹ˆ๋‹ค.

์ด ๋‘๊ฐ€์ง€ ์ด์Šˆ๋ฅผ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” (๋ณด๋‹ค ์ผ๋ฐ˜์ ์œผ๋กœ, ํ†ต๊ณ„ํ•™์—์„œ๋Š”) ๊ฐ๊ฐ overfitting / underfitting์ด๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค. ์ฆ‰,

  • Overfitting ์ด๋ž€, ์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง„ ๋ชจ๋ธ $g_\theta$๊ฐ€ ํ›ˆ๋ จ์€ ์ž˜ ๋˜์ง€๋งŒ ๋ฏธ์ง€์˜ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ฑ๋Šฅ์ด ๊ทธ์— ๋ฏธ์น˜์ง€ ๋ชปํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์ž˜ ์•Œ๊ณ  ์žˆ๋Š” ์ธ๊ฐ„์˜ ํ•™์Šต๊ณผ ๋น„๊ตํ•ด๋ณด๋ฉด, ๊ฐ™์€ ์ฑ…์„ ๊ณ„์† ๋ณด๋‹ค ๋ณด๋‹ˆ ๊ทธ ์ฑ…์€ ์ž˜ ํ’€์ง€๋งŒ ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ์ฃผ๋ฉด ๋ชป ํ‘ธ๋Š”(โ€ฆ) ์ƒํ™ฉ์ด๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.
  • Underfitting ์ด๋ž€, $g_\theta$๋ฅผ ์ถฉ๋ถ„ํžˆ ์ž˜ ์ตœ์ ํ™”ํ•˜์ง€ ๋ชปํ•œ ์ƒํ™ฉ์ž…๋‹ˆ๋‹ค. ์—ญ์‹œ ์ธ๊ฐ„์˜ ํ•™์Šต๊ณผ ๋น„๊ตํ•ด๋ณด๋ฉด ๊ทธ๋ƒฅ ๊ณต๋ถ€๊ฐ€ ๋œ ๋œ ์ƒํ™ฉ์ž…๋‹ˆ๋‹ค.

picture 1

์œ„์—์„œ ๊ตณ์ด ์ธ๊ฐ„์˜ ํ•™์Šต์— ๋น„์œ ํ•œ ์ด์œ ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•ด๊ฒฐ์ฑ…๋„ ์•ฝ๊ฐ„ motivation์ด ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค.

  • ๋จผ์ €, Underfitting ์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ํ›ˆ๋ จ์„ ๋” ํ•˜๊ฑฐ๋‚˜ (๊ณต๋ถ€๋ฅผ ๋” ์‹œํ‚ค๋Š” ๋А๋‚Œ) ์•„๋‹ˆ๋ฉด ๋” ์ข‹์€ ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค (์ด๊ฑดโ€ฆ์ธ๊ฐ„์˜ ํ•™์Šต์œผ๋กœ ์น˜๋ฉด ์Šคํƒฏ์˜ ๋ฌธ์ œ์ž„์„ ์ธ์ •ํ•˜๋Š”๊ฑฐ๋ผ ์ข€ ์• ๋งคํ•ฉ๋‹ˆ๋‹ค ใ…‹ใ…‹;;)
  • Overfitting ์€ ํ›ˆ๋ จ์ด ์ž˜๋ชป๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ‰ ๋ชจ๋ธ์ด ํ•„์š” ์ด์ƒ์œผ๋กœ ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์˜ ํŠน์ง•์„ ์žก์•„๋‚ด๊ณ  ์žˆ๋‹ค๋Š” ์ ์ด๊ณ , ์ด๊ฒƒ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์“ด๋‹ค๊ฑฐ๋‚˜ (์•„์˜ˆ ๊ณต๋ถ€ํ•  ์ž๋ฃŒ๋ฅผ ๋” ์ฃผ๋Š” ๋А๋‚Œ์ž…๋‹ˆ๋‹ค), ์•„๋‹ˆ๋ฉด regularization์ด๋ผ๋Š” ๋ฐฉ๋ฒ•์„ ์ด์šฉ, ํ•™์Šต์ด ํ›ˆ๋ จ๋ฐ์ดํ„ฐ์˜ ๋ฏธ์„ธํ•œ ํŠน์ง•๋ณด๋‹ค๋Š” ์ข€๋” ํฐ๊ทธ๋ฆผ์— ์ง‘์ค‘ํ•˜๋„๋ก ์œ ๋„ํ•ฉ๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ๋Š” Overfitting์„ ์ค„์ด๋Š” regularization์— ์ฃผ๋ชฉํ•ฉ๋‹ˆ๋‹ค. Underfitting์€ ๋” ๊ฐ•ํ•œ ๋ชจ๋ธ์„ ์“ฐ๊ฑฐ๋‚˜, ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฌ๊ฑฐ๋‚˜, ํ›ˆ๋ จ์„ ๋Š˜๋ฆฌ๋Š” ๋“ฑ ์ข€๋” ์ง๊ด€์ ์ธ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ทน๋ณต์ด ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค๋ฃจ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

Weight Decay / L2 Regularization

์šฐ๋ฆฌ๋Š” SGD๋ฅผ ์ด์šฉํ•˜์—ฌ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด weight $\theta$ ๊ฐ’์„ ์กฐ์ •ํ•˜๋Š” ์‹์œผ๋กœ training์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. \(\theta^{k+1} = \theta^k - \alpha g^k\) Weight decay๋ž€, ๋‹ค์Œ๊ณผ ๊ฐ™์ด SGD update๋ฅผ ์ˆ˜์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. \(\theta^{k+1} = (1 - \alpha \lambda) \theta^k - \alpha g^k\) ์ฆ‰, ๋งค๋ฒˆ $\theta$์˜ ๊ฐ’์ด ์กฐ๊ธˆ์”ฉ decayํ•ฉ๋‹ˆ๋‹ค.

์ด ๊ฐ’์€ ๋•Œ๋กœ๋Š” L2 Regularization์ด๋ผ๊ณ  ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค. ๊ทธ ์ด์œ ๋Š”, ์œ„ update๋ฅผ ์ž˜ ๋ณด๋ฉด $\alpha$๊ฐ€ $\lambda \theta^k$์— ๊ณฑํ•ด์ ธ ์žˆ๊ณ , ์ด๋Š” ์ฆ‰ $\lambda \theta^k$ ๊ฐ€ ๋ญ”๊ฐ€ $g^k$์ฒ˜๋Ÿผ gradient์Šค๋Ÿฌ์šด ๊ฐ’์ž„์„ ์˜๋ฏธํ•˜๋Š” ๋ฐ์„œ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฆ‰, Loss function์„ ์ž˜ ์กฐ์ •ํ•œ ๋‹ค์Œ ์ผ๋ฐ˜ SGD๋ฅผ ์“ฐ๋ฉด, ์ผ๋ฐ˜ Loss function์— ๋Œ€ํ•ด์„œ weight decay ํ•œ ๊ฒƒ๊ณผ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

์ •ํ™•ํžˆ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ loss function์„ ์“ฐ๋ฉด weight decay์™€ ๋™์น˜๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. \(\frac{1}{N} \sum_{i = 1}^{N} \ell(f_\theta(x^i), y^i) + \frac{\lambda}{2} \norm{\theta}^2\) ์ด ๊ณ„์‚ฐ์€ ๊ฐ„๋‹จํ•˜๊ฒŒ verifyํ•  ์ˆ˜ ์žˆ๋Š” ๋ฏธ๋ถ„ ๊ณ„์‚ฐ์ด๋ฏ€๋กœ ์ƒ๋žตํ•ฉ๋‹ˆ๋‹ค. ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š”, โ€œWeight๊ฐ’์ด ์ปค์ง€๋Š” ๊ฒƒ์„ ๊ธฐ๋ถ„๋‚˜์˜๊ฒŒ ๋ฐ›์•„๋“ค์ด์žโ€ ๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด ํ•œ์ •๋œ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด overfittingํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ฐ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ’์ด ํฌ๊ฒŒ fluctuateํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์—ญ์ด์šฉํ•˜๋Š” ์•„์ด๋””์–ด์ž…๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, 6๊ฐœ์˜ ์  $(0, 0), (2, 4), (4, 16), (6, 35), (8, 65), (10, 99)$ ๋ฅผ polynomial regression ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค. ์ด ๋ฐ์ดํ„ฐ๋Š” $y = x^2$ ๋ฅผ โ€œ๊ฑฐ์˜โ€ ๋”ฐ๋ผ๊ฐ€๋ฏ€๋กœ, 2์ฐจ์‹์„ ์ด์šฉํ•˜์—ฌ approximateํ•˜๋ฉด $y = x^2$ ์ •๋„๊ฐ€ ์˜ฌ๋ฐ”๋ฅธ ํ›ˆ๋ จ ๊ฒฐ๊ณผ๊ฐ€ ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ, ์—ฌ๊ธฐ์— 5์ฐจ์‹์„ ์ด์šฉํ•˜๋ฉด training error๊ฐ€ 0์ธ ๋ชจ๋ธ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค (Lagrange Interpolation). ๋‹น์—ฐํžˆ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ 100% ๋งž์ถ”๋Š”๋Œ€์‹  unseen data์™€ ํฌ๊ฒŒ ์–ด๊ธ‹๋‚˜๋Š” ์ข‹์ง€ ๋ชปํ•œ (overfitting์ด ์‹ฌํ•œ) ๋ชจ๋ธ์ธ๋ฐ, ์ด ๋ชจ๋ธ์„ ์•„๋ฌดํŠผ ํ”ผํŒ…ํ•ด๋ณด๋ฉด ๊ทธ ๊ฒฐ๊ณผ๋Š” $-\frac{x^5}{240}+\frac{37 x^4}{384}-\frac{73 x^3}{96}+\frac{323 x^2}{96}-\frac{287 x}{120}$ ์ž…๋‹ˆ๋‹ค. ๊ณ„์ˆ˜๊ฐ€ ํ›จ์”ฌ ํฌ๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ, ์˜ค๋ฒ„ํ”ผํŒ…์ด ์ผ์–ด๋‚˜๋ฉด ๋Œ€์ฒด๋กœ ๊ณ„์ˆ˜๊ฐ€ ํฌ๊ฒŒ ๋„๋›ฐ๋Š” ์ผ๋“ค์ด ๋ฒŒ์–ด์ง‘๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ, ๋ฐ˜๋Œ€๋กœ ๊ณ„์ˆ˜๊ฐ€ ์ปค์ง€๋Š”๊ฑธ supressํ•˜๋ฉด, ์˜ค๋ฒ„ํ”ผํŒ…์„ ์ผ๋ถ€ ์ค„์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Weight decay๋Š” 2-norm์„ loss์— ๋”ํ•ด์„œ L2 regularization์ด์ง€๋งŒ, ๊ฐ™์€ ๋…ผ๋ฆฌ๋กœ L1, L3 ๋“ฑ ๋‹ค๋ฅธ norm์„ ์ด์šฉํ•˜๋Š” regularization๋„ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.

Dropout

Dropout์€ ํ›ˆ๋ จ์ค‘์— ์ผ๋ถ€ ๋‰ด๋Ÿฐ์„ ์ฃฝ์ด๊ณ , ๊ทธ ๊ฐ’๋งŒํผ์„ ๋‚˜์ค‘์— ๋ณด์ •ํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•์ž…๋‹ˆ๋‹ค. picture 1
(์ด๋ฏธ์ง€ ์ถœ์ฒ˜ : Dive To Deep Learning)

์ฆ‰, ๊ฐ ๋ ˆ์ด์–ด์—์„œ $p$ํ™•๋ฅ ๋กœ ๊ฐ ๋‰ด๋Ÿฐ์„ ์ฃฝ์ธ๋‹ค์Œ, ์‚ด์•„๋‚จ์€ ๋‰ด๋Ÿฐ์— ๋Œ€ํ•ด์„œ๋Š” ๊ฐ€์ค‘์น˜์— $\frac{1}{1-p}$ ๋งŒํผ์„ ๊ณฑํ•ด์„œ ์ „์ฒด์˜ ๊ฐ€์ค‘์น˜ ํ•ฉ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฐฉ๋ฒ•์€ ์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ํ•จ์ˆ˜์˜ smoothness๋ฅผ ์ข€๋” ๊ฐ•์ œํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๊ทธ๋Ÿด๋“ฏํ•œ argument๊ฐ€ ์žˆ๋Š”๋ฐ, ๋ณ„๋กœ rigorousํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ in practice ์ž˜ ์ž‘๋™ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์ž์ฃผ ์‚ฌ์šฉ๋ฉ๋‹ˆ๋‹ค.

Data Augmentation

์ด ๋ฐฉ๋ฒ•์€ ๊ฐ„๋‹จํžˆ ์„ค๋ช…ํ•˜์ž๋ฉด ๋ฐ์ดํ„ฐ์— ๋ณ€ํ˜•์„ ๊ฐ€ํ•ด์„œ ๋ฐ์ดํ„ฐ ์ž์ฒด๋ฅผ ์ข€๋” ๊ฐ•ํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ธ๊ฐ„์˜ ํ•™์Šต์œผ๋กœ ์น˜์ž๋ฉด, ๊ฐ™์€ ๋ฌธ์ œ์—์„œ ์ˆซ์ž๋ฅผ ๋ฐ”๊พผ ์œ ์ œ๋ฅผ ๋” ํ’€๋„๋ก ์‹œํ‚ค๋Š” ๋А๋‚Œ์ธ๋ฐ์š”.

๋Œ€ํ‘œ์ ์œผ๋กœ Convolutional Neural Network๊ฐ™์€๊ฑธ ์ด์šฉํ•ด์„œ classification์„ ํ•˜๋Š” ์ƒํ™ฉ์„ ์ƒ๊ฐํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์–ด๋–ค ์‚ฌ์ง„ $X_1$์„ ๊ณ ์–‘์ด๋ผ๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ๋Š” ๋„คํŠธ์›Œํฌ๋Š”, $X_1$์„ ๊ฐ€๋กœ๋กœ 180๋„ ๋’ค์ง‘์€ (์ขŒ์šฐ๋Œ€์นญ) ์‚ฌ์ง„๋„ ๊ณ ์–‘์ด๋ผ๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋ฏธ์ง€ ์ „์ฒด์— ์•ฝ๊ฐ„์˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๊ฐ€ ๋ฐ”๋€Œ๊ฑฐ๋‚˜, ๊ฐ€๋กœ์„ธ๋กœ์—์„œ ์ž‘์€ ํ”ฝ์…€๋งŒํผ์„ ๋บ€๋‹ค๊ฑฐ๋‚˜, 5๋„์ •๋„ ๋Œ๋ ค๋†“์€ ์‚ฌ์ง„๋„ ๋‹ค ๊ณ ์–‘์ด๋ผ๊ณ  ํŒ๋‹จํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ, ์ด๋Ÿฐ ๋ฐฉ๋ฒ•๋“ค์„ ์ด์šฉํ•œ๋‹ค๋ฉด, ๊ณ ์–‘์ด ์‚ฌ์ง„ ํ•œ ์žฅ์„ ๋งˆ์น˜ ์—ฌ๋Ÿฌ ๋ฐ์ดํ„ฐ์ธ๊ฒƒ์ฒ˜๋Ÿผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—

  • ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ๋ฅผ ๋Š˜๋ฆฐ๊ฒƒ์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋”๋ผ๋„, ์™œ ํ›ˆ๋ จ์ด ์ž˜ ๋˜๋Š”์ง€ ์ง๊ด€์ ์œผ๋กœ ๋‚ฉ๋“๊ฐ€๋Šฅํ•˜๋ฉฐ
  • ๊ฒฐ์ •์ ์œผ๋กœ, โ€œenforceํ•˜๊ณ ์‹ถ์€ ์„ฑ์งˆโ€ - ์˜ˆ๋ฅผ๋“ค์–ด, โ€œ์ขŒ์šฐ๋Œ€์นญํ•ด๋„ ๋ผ๋ฒจ์ด ๋ฐ”๋€Œ์ง€ ์•Š๋Š”๋‹คโ€ ๋ฅผ ์ง์ ‘ ์ฃผ์ž…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ, ์–ด๋–ค augmentation์„ ํ• ์ง€๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ๋ณด๊ณ  ์ง์ ‘ ํƒํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ๋“ค์–ด ์†๊ธ€์”จ๋ฅผ ํŒ๋‹จํ•˜๋Š” ํƒœ์Šคํฌ๋ผ๋ฉด ์ขŒ์šฐ๋Œ€์นญ ๊ฐ™์€๊ฒƒ์€ ์“ธ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค (๋Œ€์นญํ•˜๋ฉด ๋ผ๋ฒจ์ด ๋ฐ”๋€Œ๊ธฐ ๋•Œ๋ฌธ์—) ๊ทธ๋Ÿฌ๋‚˜ ๋Œ€์‹  ์ƒ‰๊น”์„ ๋ฐ”๊พธ๋Š” augmentation์ด ๊ฐ€๋Šฅํ•œ ์‹์ž…๋‹ˆ๋‹ค.

Conclusion

Overfitting์€ ๋ชจ๋ธ์ด ๋ณต์žกํ•˜๊ณ  ๊นŠ์–ด์งˆ์ˆ˜๋ก ๋” ๋งŽ์ด ๋ฐœ์ƒํ•œ๋‹ค๋Š” ์ ์—์„œ ํ˜„๋Œ€์— ์™€์„œ ๋” ๊ฐ•ํ•œ(?) ๋ชจ๋ธ์ด ๋“ฑ์žฅํ•จ์— ๋”ฐ๋ผ ๋” ํฐ ๋ฌธ์ œ๋กœ ๋‹ค๊ฐ€์˜ต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ overfitting์„ ๋ง‰๊ธฐ ์œ„ํ•œ ์—ฌ๋Ÿฌ regularization ๋ฐฉ๋ฒ•๋“ค์€ ๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์—์„œ ๋‹ค์–‘ํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜๋ฉฐ, ์ƒˆ๋กœ์šด ๋ชจ๋ธ์„ ์„ค๊ณ„ํ•  ๋•Œ ํ•„์ˆ˜์ ์ธ ์š”์†Œ๋ผ๊ณ  ํ•  ์ˆ˜ ์žˆ๊ฒ ์Šต๋‹ˆ๋‹ค.