Back to : deep-learning-study
Contents

์ด ๊ธ์ Supervised Learning ํฌ์คํ ์์์ ์ถ๋ฐํฉ๋๋ค.

์ฆ, ์ฐ๋ฆฌ๋ ์ด๋ค ์ ๋นํ loss function $\ell$๊ณผ ์ฃผ์ด์ง ๋ฐ์ดํฐ $x^i$ ๋ค์ ๋ํด, $$\underset{\theta \in \Theta}{\minimize}\ \sum_i \ell(f(x^i), f_\theta(x^i))$$ ์ด๋ฌํ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ์ํฉ์ ์๊ฐํ  ๊ฒ์๋๋ค. ์์๋ก, Linear Regression ์ด๋ Support Vector Machine ์ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.

$f(x^i) = y^i$ ๋ค์ด ์ฃผ์ด์ ธ ์์ ๋, Linear regression์ ์ผ๋ฐ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ด ์ฐ์ฌ์ง๋๋ค. $$\underset{\theta \in \Theta}{\minimize}\ \sum_i \|X\theta - y \|^2$$ ์ด๋ ์ฆ $\ell(u, v) = \norm{u - v}^2$ ์ $f_\theta(x) = x^T\theta$ ๋ฅผ ํํ ์ํฉ์ผ๋ก ์๊ฐํ  ์ ์์ต๋๋ค.

## Linear Layer

์๋ ฅ์ ๋ํด ํ๋ฒ์ ํ๋ ฌ๊ณฑ๊ณผ bias ์ฐ์ฐ์ ์ํํ๋ ๊ฒ์ Linear Layer ๋ผ๊ณ  ๋ถ๋ฆ๋๋ค.1 ์ฆ, $$h_{W, b}(X) = WX + b$$ ์ด๋, $h$๊ฐ ๊ฐ๋ parameter $\theta$๋ $(W, b)$ ๋ก ์๊ฐํ  ์ ์์ต๋๋ค. $X$ ๊ฐ $\R^n$ ๋ฒกํฐ๋ผ๋ฉด, $W$ ๊ฐ $\R^{m \times n}$ ํ๋ ฌ์ด ๋๊ณ , $b$ ๋ $\R^m$ ๋ฒกํฐ๊ฐ ๋์ด $h_{W, b} : \R^n \to \R^m$ ์ ์ ํ ํจ์๋ฅผ ์ด๋ฃน๋๋ค. ์ด๋ $h$๋ $m(n+1)$ ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ ์ด ๋ฉ๋๋ค.

Linear regression์ ๋ค๋ณ์๋ก ํ์ฅํ๋ฉด, ์ฌ๊ธฐ์ $b$๋ ๋นผ๋ฒ๋ฆฐ ํํ์ $h_\theta(X) = X\theta$ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ์์ด ๋ฉ๋๋ค.

## Perceptron

์ฐ๋ฆฌ๋ Linear Layer ๊ด์ ์์ ์ถ๋ฐํ์ง๋ง, ์ฌ์ค MLP์ inspiration์ ๋ค๋ฅธ๊ณณ์ ์์ต๋๋ค. Perceptron ์ด๋ผ๋ ์๋ก์ด ๊ฐ๋์ ์ ์ํฉ๋๋ค.

Perceptron์ ์ธ๊ฐ์ ๋์ ์๋ Neuron์์ motivation์ ์ป์ด ๊ฐ๋ฐ๋์์ต๋๋ค. ์์ธํ ๋๊ณผํ์ ์ธ ์ด์ผ๊ธฐ๋ ์ฐจ์นํ๊ณ , ์ฐ๋ฆฌ๋ ์ํ์ ์ธ ๊ด์ ์์ ๋ฐ๋ผ๋ณผ ๊ฒ์ด๋ฏ๋ก Perceptron ํ๋๋ฅผ ํ๋์ ๋๋ฆฝ๋ ๊ฐ์ฒด์ฒ๋ผ ์๊ฐํ๋ฉด ๋ฉ๋๋ค. ์ ํํ๋ ๋ฒกํฐ ํ๋๋ฅผ ๋จน๊ณ , ์์ ํ๋๋ฅผ ๋ฑ๋ ํจ์๋ก ์์ฒด๊ฐ ํ๋ผ๋ฏธํฐ $w \in \R^n$, $b \in \R$์ ๊ฐ์ต๋๋ค. 2

๋ฐ๋ผ์ ๋ฒกํฐ๊ฐ ํ๋ ์ฃผ์ด์ง๋ฉด, neuron ํ๋๋ $w \cdot x + b$ ๋ฅผ ๋ฑ์ต๋๋ค. ์ด๋ฅผ $m$๊ฐ ๋ชจ์ผ๋ฉด ๊ฐ์๊ฐ ๋ฐ๋ก๋ฐ๋ก parameter๋ฅผ ๊ฐ์ง๋ฏ๋ก, ๋ค์๊ณผ ๊ฐ์ด ์๊ธด ๋ชจ๋ธ์ด ๋ฉ๋๋ค.

์ด ๊ทธ๋ฆผ์์ $\Sigma$ ํ๋๊ฐ ๋ด๋ฐ ํ๋๋ฅผ ์๋ฏธํฉ๋๋ค. ๋ด๋ฐ 3๊ฐ๊ฐ ๋ชจ์ฌ์๋ ๊ฒ์ด ๊ฒฐ๊ณผ์ ์ผ๋ก๋ $(w_1 \cdot x + b_1), (w_2 \cdot x + b_2) \cdots$ ์ ํํ๊ฐ ๋๊ณ , ์ด๋ ์ฆ $Wx + b$ ์ ํ๋ ฌ๊ณฑ์๊ณผ ์ ํํ ๋์น์์ ํ์ธํ  ์ ์์ต๋๋ค.

## MultiLayer Perceptron

ํ๋์ Linear Layer๋ก๋ ์ ํ์ ์ธ ํจ์๋ง ๋ง๋ค ์ ์์ต๋๋ค.
๊ทธ๋ฌ๋ ์ธ์์ ๊ฑฐ์ ๋ชจ๋  ๋ฌธ์ ๋ ๋น์ ํ์ ์ด๊ธฐ ๋๋ฌธ์, ๋น์ ํ ํจ์๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ด ํ์ํฉ๋๋ค.

๋จผ์ , ๋ค์๊ณผ ๊ฐ์ด Linear๋ฅผ 2๊ฐ ์ด์ ์๋ ๋ฐฉ๋ฒ์ ์๊ฐํด ๋ด์๋ค.

์ด์ , ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋๋ค. $$f_{A_1, A_2, b_1, b_2}(x) = A_2(A_1 x + b_1)+b_2$$ ๊ทธ๋ฐ๋ฐ ์ด๋ ๊ฒ ์์ ๋ ์ด์ด๋ ์ฌ์ค ์ ํ ๋์์ด ์ ๋ฉ๋๋ค. ์ ํํจ์์ ํฉ์ฑ์ ์ ํํจ์์ด๊ธฐ ๋๋ฌธ์๋๋ค. ์ฆโฆ $$f_{A_1, A_2, b_1, b_2}(x) = (A_2 A_1) x + (A_2b_1+b_2)$$ ์ฌ์ค ํ๋์ Layer๋ฅผ ์ฐ๋ ๊ฒ๋ณด๋ค ๋ ๋์๊ฒ ์ ํ ์๊ฒ ๋ฉ๋๋ค.

๋ฐ๋ผ์, ๋ชจ๋ธ์ ๋น์ ํ์ฑ ์ ์ถ๊ฐํ๊ธฐ ์ํด Activation function ์ ๋์ํด์ผ ํฉ๋๋ค. ๋ง์ด ์ฐ์ด๋ activation function์ผ๋ก๋ $\tanh(x), \text{RELU}(x)$ ๋ฑ์ด ์์ต๋๋ค๋ง, ์ฌ๊ธฐ์๋ ๋ญ๊ฐ ๋น์ ํ์ ์ธ ํจ์๋ฅผ ์ถ๊ฐ๋ก ๋์ํ๋ค๋ ๊ฒ์ ์ดํดํ๋ฉด ์ถฉ๋ถํฉ๋๋ค. ์ฆ, ์ด๋ฐ ์์ผ๋ก ๋ชจ๋ธ์ ๊ตฌ์ฑํ๊ฒ ๋ฉ๋๋ค. $$f_{A_1, A_2, b_1, b_2}(x) = A_2 \sigma(A_1 x + b_1) + b_2$$ ์ด์  ๋น์ ํ ํจ์๋ค๋ ํํํ  ์ ์๊ฒ ๋ฉ๋๋ค. ์ด์  Backpropagation ์ผ๋ก ํธ๋ฏธ๋ถ๊ณ์๋ฅผ ๊ณ์ฐํ์ฌ, ๋ชจ๋ธ์ ํ์ตํ๋ฉด ๋ฉ๋๋ค.

๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก, $L$๊ฐ์ ๋ ์ด์ด๋ฅผ ๊ฐ๋ Multi-Layer Perceptron์ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์์ต๋๋ค. ํ๋ ฌ Weight์ $W$๋ก, bias๋ฅผ $b$๋ก ์ ์์ต๋๋ค. \begin{align*} y_L &= W_L y_{L-1} + b_L \\ y_{L - 1} &= \sigma(W_{L-1} y_{L - 2} + b_{L - 1}) \\ \cdots & \cdots \\ y_2 &= \sigma (W_2 y_1 + b_2) \\ y_1 &= \sigma (W_1 x + b_1) \end{align*}

• ๋ง์ง๋ง Layer์๋ activation function $\sigma$๋ฅผ ๋ฃ์ง ์๋๊ฒ์ด ์ผ๋ฐ์ ์๋๋ค.
• ๋ง์ฝ ์ฐ๋ฆฌ๊ฐ ์์ธกํ๋ ค๋๊ฒ ํ๋ฅ ์ด๋ผ๋ฉด (classification) ๋ง์ง๋ง์ softmax ๊ฐ์๊ฑธ ๊ฑธ์ด์ ์ ์ฒด๋ฅผ 1๋ก ๋ง์ถฐ์ฃผ์ด์ผ ํ์ง๋ง
• ๋ค๋ฅธ ๊ฐ์ ์์ธกํ๋๊ฒ์ด๋ผ๋ฉด ๋ง์ง๋ง์ activation function์ด ๊ฒฝ์ฐ์๋ฐ๋ผ ๊ฐ์ ๋ฒ์๋ฅผ ์ ํํ  ์ ์๊ธฐ ๋๋ฌธ์๋๋ค.

## Further Topics

• Pytorch MLP ๋ชจ๋ธ๋ก MNIST ํ์ด๋ณด๊ธฐ ์์ ๊ฐ๋จํ MLP ํ์ฉ์ ๋ณผ ์ ์์ต๋๋ค.
• "์ด์  ๋น์ ํ ํจ์๋ค๋ ํํํ  ์ ์๊ฒ ๋ฉ๋๋ค." -> ์ํ์ ์ผ๋ก ์ฐ๋ฆฌ๋ ์ด๋ค ๋น์ ํ ํจ์๋ฅผ MLP๋ก ํ ์ ์๋์ง ์กฐ๊ธ์ ์๊ณ  ์์ต๋๋ค.
์ ๋ต์ ๋๋๊ฒ๋, โ์ถฉ๋ถํ ํฐ 2-layer MLP๋ ์์์ ํจ์๋ฅผ ์ ๊ทผ์ฌํ  ์ ์๋คโ๋ ๊ฒ์๋๋ค. ์ฆ๋ช์ ๊ฝค ๊ณ ๊ธ์ ์ํ (ํด์ํ) ์ ์๊ตฌํฉ๋๋ค. Universal Approximation Theorem

1. Pytorch์์๋ Linear, Keras์์๋ Dense๋ผ ๋ถ๋ฆ๋๋ค.ย โฉ

2. ์ฌ์ค perceptron์ ์ด๋ฅผ ์ด์ฉํ classification model์ ๋งํ๊ณ , ์ด ๊ฐ์ฒด ํ๋๋ฅผ neuron์ด๋ผ ๋ถ๋ฅด๋ ๊ฒฝ์ฐ๋ ๋ง์ต๋๋ค. ํผ์ฉํด์ ์ฐ๊ฒ ์ต๋๋ค.ย โฉ