[P] Softmax Regression
์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ํ์ ๊ธฐ์ด 6๊ฐ (9์ 23์ผ) ์ ๊ธฐ๋ฐํฉ๋๋ค.
์ด ๊ธ์ SVM๊ณผ Logistic Regression ๋งํฌ ์ ์ด์ด์ง๋ ๋ด์ฉ์ ๋๋ค.
๋์ค์ ์ค๋ช ์ ๋ณด๊ฐํด์ ๋ค์ ์์ฑ๋ ์์ ์ ๋๋ค.
๋ฐ์ดํฐ $X_1, \dots X_n \in \mathcal{X}$์ด ์๊ณ , ์ด์ ๋ํ ์ ๋ต ๋ผ๋ฒจ $Y_1, \dots Y_n \in \mathcal{Y}$์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด ๋ณด์. ์ด๋ฒ์๋ ๊ทธ๋ฐ๋ฐ, $Y_i$ ๊ฐ $-1$ ๊ณผ $1$ ์ค์์ ๊ณ ๋ฅด๋ ๊ฒ์ด ์๋๋ผ $\Set{1, 2, \dots k}$ ์ค ํ๋์ด๋ค.
Softmax Regression
Logistic Regression์ ํ์ฅ๋ ๋ฒ์ ์ผ๋ก, multi-class classification์ ํ๊ณ ์ถ๋ค. ์ฌ์ ํ empirical distribution์ ๊ฐ๋ ์ ์ฌ์ฉํ๋ค. $\mathcal{P}(y)$ ๋ ํฌ๊ธฐ $k$์ ๋ฒกํฐ๋ก, one-hot encoding ๋ ๊ฒ์ผ๋ก ๋ณด์.
Softmax ํจ์๋ฅผ ์ด์ฉํ์ฌ, $\argmax$ ๋ฅผ in some sense smooth- ํ๋ค. Define $\mu : \R^k \to \R^k$ as \(\mu(z)_i = \frac{e^{z_i}}{\sum_{j = 1}^{k} e^{z_j}}\)
์ด ํจ์๊ฐ์ ๋ชจ๋ index $i$์ ๋ํ ํฉ์ด 1์ด๊ธฐ ๋๋ฌธ์, $\mu(z)_i$ ๋ฅผ ์ผ์ข ์ confidence ํ๋ฅ ๋ก ์๊ฐํ ์ ์๋ค.
์ด์ , ๋ชจ๋ธ $\mu(f_{A, b}(x)) = \mu(Ax + b)$ ๋ฅผ ํํ์. ์ด๋, $x \in \R^n$ ์ ๋ํด, $A$์ ๊ฐ row vector ๋ฅผ $a_i^T$ ๋ผ ํ๋ฉด, $f_{A, b}(x)$ ๋ ๋ค์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด $(f_{A, b}(x))_i = (a_i^Tx + b_i)$ ์ธ ํฌ๊ธฐ $k$์ ๋ฒกํฐ๊ฐ ๋๊ณ , $\mu$ ๋ฅผ ๋ถ์ด๋ฉด ๊ฐ index์ softmax๋ฅผ ์ด ๊ฒฐ๊ณผ๊ฐ ๋๋ค. ๊ฒฐ๊ตญ์ ์ด๋ค ํ๋ ฌ๊ณฑ์ ํด์ ๋ฒกํฐ๋ฅผ ์ป์ ๋ค์, ๊ทธ ๋ฒกํฐ์๋ค๊ฐ softmax๋ฅผ ๋ถ์ธ ์ .
์ฐ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ์ต์ ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์ ํ๋ค. \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ \sum_{i = 1}^{N} \DKL{\mathcal{P}(Y_i)}{\mu(f_{a, b}(X_i))}\) ์ด ์์ ์ ๋ฆฌํ๋ฉด, Logistic regression ๋์ฒ๋ผ ๋ค์ ๋ฌธ์ ์ ๋์น์์ ์๋ค. \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ \sum_{i = 1}^{N} H(\mathcal{P}(Y), \mu(f_{a, b}(X)))\) ์ด์ , ๋ค์ cross entropy ํญ์ ์ ๊ฐํ์ฌ ์ ๋ฆฌํ๋ค. \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ -\sum_{i = 1}^{N} \sum_{j = 1}^{k} \mathcal{P}(Y_i)_j \log (\mu(f_{A, b}(X_i))_j)\) ์ฌ๊ธฐ์ $\mathcal{P}(Y_i)_j$ ๋ $j = Y_i$ ์ผ ๋ 1์ด๊ณ ๋๋จธ์ง๋ 0์ด๋ฏ๋ก, \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ -\sum_{i = 1}^{N} \log \mu(f_{A, b}(X_{i}))_{Y_i} = \underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ -\sum_{i = 1}^{N} \log \left( \frac{e^{a_{Y_i}^T X_i + b_{Y_i}}}{\sum_{j = 1}^{k} e^{a_j^TX_i + b_j}}\right)\) ์ด ์์ ์ ๋ฆฌํ์ฌ, \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ \sum_{i = 1}^{N} \left(-(a_{Y_i}^T X_i + b_{Y_i}) + \log\left(\sum_{j = 1}^{k} e^{a_j^TX_i + b_j}\right)\right)\)
Interesting fact : Softmax regression์ ์ ๋ณด๋ฉด ๊ฒฐ๊ณผ ์์ด ์ฌ์ค convexํ๋ค. ๋ํ, $n = 2$ ์ผ ๋, ์ด ์์ Logistic regression๊ณผ ๋์น์ด๋ค.
์ด๋ฅผ ํธํ๊ฒ ์ฐ๊ธฐ ์ํด, Cross Entropy Loss ๋ผ๋ ํจ์๋ฅผ ์ ์ํ๋ค. \(\ell^{\text{CE}} (f, y) = - \log\left(\frac{e^{f_y}}{\sum_{j = 1}^{k} e^{f_j}}\right)\) ์ด์ , ์ด ํจ์๋ฅผ ์ด์ฉํ์ฌ ์ฝ๊ฒ Softmax Regression์ ์ ์ํ ์ ์๋ค. \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ \frac{1}{N}\sum_{i = 1}^{N} \ell^{\text{CE}}(f_{A, b}(X_i), Y_i)\)
์ด๋ ์ฆ, Softmax Regression์ ์ ์ํ๋ ๋ฐ ์์ด์โฆ
- ๋จ์ํ Linear model์ Cross Entropy Loss๋ก ์ต์ ํํ๊ธฐ
- Softmax-ed Linear model์ KL Divergence๋ก ์ต์ ํํ๊ธฐ
๊ฒฐ๊ตญ์ ๋์ด ๊ฐ์ ๋ง์ด์ง๋ง (CE Loss๊ฐ ๊ฒฐ๊ตญ softmax์ฒ๋ฆฌํ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๊ฒ ๋ค๋ ์๋ฏธ์ด๋ฏ๋ก), ์ ์์ ํํ์ด ์ข๋ ์ผ๋ฐํ๊ฐ ์ฝ๋ค.
์ ์์ ํํ์ ์ด์ฉํ์ฌ SR์ ์์ฐ์ค๋ฝ๊ฒ ํ์ฅํ๋ฉด, linear model $f_{A, b}$ ๋์ ์ด๋ค ์์์ model $f_\theta(X_i)$ ์์ cross entropy loss๋ฅผ minimizeํ๋ ๊ฒ์ฒ๋ผ ์๊ฐํด ๋ณผ ์๋ ์๋ค. \(\underset{A \in \R^{k \x n}, b \in \R^k}{\minimize}\ \frac{1}{N}\sum_{i = 1}^{N} \ell^{\text{CE}}(f_{\theta}(X_i), Y_i)\)
์ด๋ cross entropy loss๊ฐ ๊ธฐ๋ณธ์ ์ผ๋ก๋ ์ด๋ค arg-max ์ค๋ฌ์ด (by softmax) choice๋ฅผ ํด์ ๊ทธ ๊ฒฐ๊ณผ๊ฐ์ empirical distribution๊ณผ์ KL-Divergence๋ฅผ minimizeํ๋ ๊ฐ๋ ์ผ๋ก ์ ์ฉ๋๊ธฐ ๋๋ฌธ.