Back to : deep-learning-study
Contents

์ด ๊ธ€์€ Supervised Learning ํฌ์ŠคํŒ… ์œ„์—์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค.

์ฆ‰, ์šฐ๋ฆฌ๋Š” ์–ด๋–ค ์ ๋‹นํ•œ loss function $\ell$๊ณผ ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ $x^i$ ๋“ค์— ๋Œ€ํ•ด, \(\underset{\theta \in \Theta}{\minimize}\ \sum_i \ell(f(x^i), f_\theta(x^i))\) ์ด๋Ÿฌํ•œ ์ตœ์ ํ™” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ์ƒํ™ฉ์„ ์ƒ๊ฐํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์˜ˆ์‹œ๋กœ, Linear Regression ์ด๋‚˜ Support Vector Machine ์„ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

$f(x^i) = y^i$ ๋“ค์ด ์ฃผ์–ด์ ธ ์žˆ์„ ๋•Œ, Linear regression์€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ฐ์—ฌ์ง‘๋‹ˆ๋‹ค. \(\underset{\theta \in \Theta}{\minimize}\ \sum_i \|X\theta - y \|^2\) ์ด๋Š” ์ฆ‰ $\ell(u, v) = \norm{u - v}^2$ ์™€ $f_\theta(x) = x^T\theta$ ๋ฅผ ํƒํ•œ ์ƒํ™ฉ์œผ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Linear Layer

์ž…๋ ฅ์— ๋Œ€ํ•ด ํ•œ๋ฒˆ์˜ ํ–‰๋ ฌ๊ณฑ๊ณผ bias ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์„ Linear Layer ๋ผ๊ณ  ๋ถ€๋ฆ…๋‹ˆ๋‹ค.1 ์ฆ‰, \(h_{W, b}(X) = WX + b\) ์ด๋•Œ, $h$๊ฐ€ ๊ฐ–๋Š” parameter $\theta$๋Š” $(W, b)$ ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. $X$ ๊ฐ€ $\R^n$ ๋ฒกํ„ฐ๋ผ๋ฉด, $W$ ๊ฐ€ $\R^{m \times n}$ ํ–‰๋ ฌ์ด ๋˜๊ณ , $b$ ๋Š” $\R^m$ ๋ฒกํ„ฐ๊ฐ€ ๋˜์–ด $h_{W, b} : \R^n \to \R^m$ ์˜ ์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ์ด๋ฃน๋‹ˆ๋‹ค. ์ด๋•Œ $h$๋Š” $m(n+1)$ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ ์ด ๋ฉ๋‹ˆ๋‹ค.

Linear regression์„ ๋‹ค๋ณ€์ˆ˜๋กœ ํ™•์žฅํ•˜๋ฉด, ์—ฌ๊ธฐ์„œ $b$๋„ ๋นผ๋ฒ„๋ฆฐ ํ˜•ํƒœ์˜ $h_\theta(X) = X\theta$ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ์…ˆ์ด ๋ฉ๋‹ˆ๋‹ค.

Perceptron

์šฐ๋ฆฌ๋Š” Linear Layer ๊ด€์ ์—์„œ ์ถœ๋ฐœํ–ˆ์ง€๋งŒ, ์‚ฌ์‹ค MLP์˜ inspiration์€ ๋‹ค๋ฅธ๊ณณ์— ์žˆ์Šต๋‹ˆ๋‹ค. Perceptron ์ด๋ผ๋Š” ์ƒˆ๋กœ์šด ๊ฐœ๋…์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

Perceptron์€ ์ธ๊ฐ„์˜ ๋‡Œ์— ์žˆ๋Š” Neuron์—์„œ motivation์„ ์–ป์–ด ๊ฐœ๋ฐœ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‡Œ๊ณผํ•™์ ์ธ ์ด์•ผ๊ธฐ๋Š” ์ฐจ์น˜ํ•˜๊ณ , ์šฐ๋ฆฌ๋Š” ์ˆ˜ํ•™์ ์ธ ๊ด€์ ์—์„œ ๋ฐ”๋ผ๋ณผ ๊ฒƒ์ด๋ฏ€๋กœ Perceptron ํ•˜๋‚˜๋ฅผ ํ•˜๋‚˜์˜ ๋…๋ฆฝ๋œ ๊ฐœ์ฒด์ฒ˜๋Ÿผ ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ •ํ™•ํžˆ๋Š” ๋ฒกํ„ฐ ํ•˜๋‚˜๋ฅผ ๋จน๊ณ , ์ƒ์ˆ˜ ํ•˜๋‚˜๋ฅผ ๋ฑ‰๋Š” ํ•จ์ˆ˜๋กœ ์ž์ฒด๊ฐ€ ํŒŒ๋ผ๋ฏธํ„ฐ $w \in \R^n$, $b \in \R$์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. 2

๋”ฐ๋ผ์„œ ๋ฒกํ„ฐ๊ฐ€ ํ•˜๋‚˜ ์ฃผ์–ด์ง€๋ฉด, neuron ํ•˜๋‚˜๋Š” $w \cdot x + b$ ๋ฅผ ๋ฑ‰์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ $m$๊ฐœ ๋ชจ์œผ๋ฉด ๊ฐ์ž๊ฐ€ ๋”ฐ๋กœ๋”ฐ๋กœ parameter๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ, ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ƒ๊ธด ๋ชจ๋ธ์ด ๋ฉ๋‹ˆ๋‹ค.

drawing

์ด ๊ทธ๋ฆผ์—์„œ $\Sigma$ ํ•˜๋‚˜๊ฐ€ ๋‰ด๋Ÿฐ ํ•˜๋‚˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋‰ด๋Ÿฐ 3๊ฐœ๊ฐ€ ๋ชจ์—ฌ์žˆ๋Š” ๊ฒƒ์ด ๊ฒฐ๊ณผ์ ์œผ๋กœ๋Š” $(w_1 \cdot x + b_1), (w_2 \cdot x + b_2) \cdots$ ์˜ ํ˜•ํƒœ๊ฐ€ ๋˜๊ณ , ์ด๋Š” ์ฆ‰ $Wx + b$ ์˜ ํ–‰๋ ฌ๊ณฑ์…ˆ๊ณผ ์ •ํ™•ํžˆ ๋™์น˜์ž„์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MultiLayer Perceptron

ํ•˜๋‚˜์˜ Linear Layer๋กœ๋Š” ์„ ํ˜•์ ์ธ ํ•จ์ˆ˜๋งŒ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์„ธ์ƒ์˜ ๊ฑฐ์˜ ๋ชจ๋“  ๋ฌธ์ œ๋Š” ๋น„์„ ํ˜•์ ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๋จผ์ €, ๋‹ค์Œ๊ณผ ๊ฐ™์ด Linear๋ฅผ 2๊ฐœ ์ด์ƒ ์Œ“๋Š” ๋ฐฉ๋ฒ•์„ ์ƒ๊ฐํ•ด ๋ด…์‹œ๋‹ค.

drawing

์ด์ œ, ๋ชจ๋ธ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. \(f_{A_1, A_2, b_1, b_2}(x) = A_2(A_1 x + b_1)+b_2\) ๊ทธ๋Ÿฐ๋ฐ ์ด๋ ‡๊ฒŒ ์Œ“์€ ๋ ˆ์ด์–ด๋Š” ์‚ฌ์‹ค ์ „ํ˜€ ๋„์›€์ด ์•ˆ ๋ฉ๋‹ˆ๋‹ค. ์„ ํ˜•ํ•จ์ˆ˜์˜ ํ•ฉ์„ฑ์€ ์„ ํ˜•ํ•จ์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ฆ‰โ€ฆ \(f_{A_1, A_2, b_1, b_2}(x) = (A_2 A_1) x + (A_2b_1+b_2)\) ์‚ฌ์‹ค ํ•˜๋‚˜์˜ Layer๋ฅผ ์“ฐ๋Š” ๊ฒƒ๋ณด๋‹ค ๋” ๋‚˜์„๊ฒŒ ์ „ํ˜€ ์—†๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋”ฐ๋ผ์„œ, ๋ชจ๋ธ์— ๋น„์„ ํ˜•์„ฑ ์„ ์ถ”๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด Activation function ์„ ๋„์ž…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์ด ์“ฐ์ด๋Š” activation function์œผ๋กœ๋Š” $\tanh(x), \text{RELU}(x)$ ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๋ญ”๊ฐ€ ๋น„์„ ํ˜•์ ์ธ ํ•จ์ˆ˜๋ฅผ ์ถ”๊ฐ€๋กœ ๋„์ž…ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ดํ•ดํ•˜๋ฉด ์ถฉ๋ถ„ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ์ด๋Ÿฐ ์‹์œผ๋กœ ๋ชจ๋ธ์„ ๊ตฌ์„ฑํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. \(f_{A_1, A_2, b_1, b_2}(x) = A_2 \sigma(A_1 x + b_1) + b_2\) ์ด์ œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋“ค๋„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ด์ œ Backpropagation ์œผ๋กœ ํŽธ๋ฏธ๋ถ„๊ณ„์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ, ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

๋ณด๋‹ค ์ผ๋ฐ˜์ ์œผ๋กœ, $L$๊ฐœ์˜ ๋ ˆ์ด์–ด๋ฅผ ๊ฐ–๋Š” Multi-Layer Perceptron์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ–‰๋ ฌ Weight์„ $W$๋กœ, bias๋ฅผ $b$๋กœ ์ ์—ˆ์Šต๋‹ˆ๋‹ค. \(\begin{align*} y_L &= W_L y_{L-1} + b_L \\ y_{L - 1} &= \sigma(W_{L-1} y_{L - 2} + b_{L - 1}) \\ \cdots & \cdots \\ y_2 &= \sigma (W_2 y_1 + b_2) \\ y_1 &= \sigma (W_1 x + b_1) \end{align*}\)

  • ๋งˆ์ง€๋ง‰ Layer์—๋Š” activation function $\sigma$๋ฅผ ๋„ฃ์ง€ ์•Š๋Š”๊ฒƒ์ด ์ผ๋ฐ˜์ ์ž…๋‹ˆ๋‹ค.
    • ๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ์˜ˆ์ธกํ•˜๋ ค๋Š”๊ฒŒ ํ™•๋ฅ ์ด๋ผ๋ฉด (classification) ๋งˆ์ง€๋ง‰์— softmax ๊ฐ™์€๊ฑธ ๊ฑธ์–ด์„œ ์ „์ฒด๋ฅผ 1๋กœ ๋งž์ถฐ์ฃผ์–ด์•ผ ํ•˜์ง€๋งŒ
    • ๋‹ค๋ฅธ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š”๊ฒƒ์ด๋ผ๋ฉด ๋งˆ์ง€๋ง‰์— activation function์ด ๊ฒฝ์šฐ์—๋”ฐ๋ผ ๊ฐ’์˜ ๋ฒ”์œ„๋ฅผ ์ œํ•œํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Further Topics

  • Pytorch MLP ๋ชจ๋ธ๋กœ MNIST ํ’€์–ด๋ณด๊ธฐ ์—์„œ ๊ฐ„๋‹จํ•œ MLP ํ™œ์šฉ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
  • "์ด์ œ ๋น„์„ ํ˜• ํ•จ์ˆ˜๋“ค๋„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค." -> ์ˆ˜ํ•™์ ์œผ๋กœ ์šฐ๋ฆฌ๋Š” ์–ด๋–ค ๋น„์„ ํ˜• ํ•จ์ˆ˜๋ฅผ MLP๋กœ ํ’€ ์ˆ˜ ์žˆ๋Š”์ง€ ์กฐ๊ธˆ์€ ์•Œ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
    ์ •๋‹ต์€ ๋†€๋ž๊ฒŒ๋„, โ€œ์ถฉ๋ถ„ํžˆ ํฐ 2-layer MLP๋Š” ์ž„์˜์˜ ํ•จ์ˆ˜๋ฅผ ์ž˜ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹คโ€๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ฆ๋ช…์€ ๊ฝค ๊ณ ๊ธ‰์˜ ์ˆ˜ํ•™ (ํ•ด์„ํ•™) ์„ ์š”๊ตฌํ•ฉ๋‹ˆ๋‹ค. Universal Approximation Theorem

  1. Pytorch์—์„œ๋Š” Linear, Keras์—์„œ๋Š” Dense๋ผ ๋ถ€๋ฆ…๋‹ˆ๋‹ค.ย โ†ฉ

  2. ์‚ฌ์‹ค perceptron์€ ์ด๋ฅผ ์ด์šฉํ•œ classification model์„ ๋งํ•˜๊ณ , ์ด ๊ฐœ์ฒด ํ•˜๋‚˜๋ฅผ neuron์ด๋ผ ๋ถ€๋ฅด๋Š” ๊ฒฝ์šฐ๋„ ๋งŽ์Šต๋‹ˆ๋‹ค. ํ˜ผ์šฉํ•ด์„œ ์“ฐ๊ฒ ์Šต๋‹ˆ๋‹ค.ย โ†ฉ