Coursera ML, Lecture 6 : Overfitting / Regularization
- Overfitting Issue
- How to deal with?
- Regularization
- Regularized Linear Regression
- Regularized Logistic Regression
Overfitting Issue
- Underfitting : ๋ฐ์ดํฐ๊ฐ Linearํ์ง ์์์๋ ๋ถ๊ตฌํ๊ณ , Linear function fitting์ ํ๋ ๋ฑ์ ์ด์ ๋ก fitting๋์ง ์๋ ํ์
- Overfitting : 5๊ฐ์ ๋ฐ์ดํฐ๋ฅผ 4์ฐจํจ์๋ก fittingํ๋ค๋ฉด? ๋ฐ์ดํฐ์ ๋ํด์๋ 100%์ ์ ํ๋๋ฅผ ๊ฐ์ง๋ง, ์ค์ ๋ก ์ข์ ๋ชจ๋ธ๋ง์ ์๋.
- ์ด๋ฅผ High-variance๋ผ๊ณ ํ๋ค. High-order ๋คํญ์์ ์ธ ๋์ ๋ฌธ์ ์ . ์ง๋์น๊ฒ ๋ง์ ์์ ๋์ ๊ฐ์ค์ ํ์ฉํ์ฌ, ๋ณ๋ก ์ข์ ๊ฒฐ๊ณผ๊ฐ ์๋๊ฒ ๋จ.
- Too many features -> Cost function์ด ๋งค์ฐ ์์ง๋ง ์ค์ฉ์ ์ผ๋ก ๋์์ด ๋์ง ์๋ ๊ฒฝ์ฐ ์์.
- ์ง๋์น๊ฒ ์ ํํ Fitting ๊ณผ์ ๋๋ฌธ์, ํ์ ํด์ผ ํ ๊ฒฝํฅ์ฑ์ ๋์น๋ ํ์!!
How to deal with?
- Feature๊ฐ์ ์ค์ด๊ธฐ. ์ด๋ถ๋ถ์ Manualํ๊ฒ ํ ์๋ ์๊ณ , Model selection algorithm์ ์ธ ์๋ ์์.
- ์ด ๊ณผ์ ์์ ์ง์ง ํ์ํ ์ ๋ณด๋ฅผ ๋์น ์๋ ์์. ์ค์ Feature๊ฐ ์ ๋ง ๋ถํ์ํ์ง ํ์ ํ๊ธฐ๊ฐ ์ด๋ ต๋ค.
- Regularization. Feature๋ ๊ทธ๋๋ก ๋ค๊ณ ๊ฐ๋, magnitude / value of parameter๋ฅผ ์ค์ด๋ ๋ฐฉ๋ฒ.
Regularization
- ex) ํ๋ํฐ๋ฅผ ํตํด $\theta_3, \theta_4$ ๋ฅผ ์์ ๊ฐ์ผ๋ก ์ ์งํ๋๋ก ๊ฐ์ ํ๊ธฐ. \(J_{\text{new}}(\theta) = J(\theta) + 1000\theta_3^2 + 1000\theta_4^2\)
- ๊ฒฐ๊ตญ์ Hypothesis๋ฅผ ๋ ๊ฐ๋จํ๊ฒ ํ๋ ๊ฒ. Overfitting ๋ฌธ์ ๊ฐ ์ค์ด๋ ๋ค.
- ex) Regularization parameter๋ฅผ ์ฌ์ฉํ์ฌ, tradeoff๋ฅผ ๊ฐ์ ํ๊ธฐ. \(J(\theta) = \frac{1}{2m}\left(\sum_{i = 1}^{m} (h_{\theta}(x_i) - y_i)^2 + \lambda \sum_{i = 1}^{n} \theta_j^2\right)\)
- $\lambda$๊ฐ ๋๋ฌด ํฌ๋ฉด -> ์ง๋์น๊ฒ ํฐ Penalty term ๋๋ฌธ์ Underfitting ๋ฐ์.
Regularized Linear Regression
\(\begin{aligned} \pdv{}{\theta_j}J(\theta) = \frac{1}{m} \sum_{i = 1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)}_j + \frac{\lambda}{m}\theta_j \end{aligned}\)
- ํธ๋ฏธ๋ถ์์ ์ ๋ณด๋ฉด, ๋ค์๊ณผ ๊ฐ์ ์ ๋ฐ์ดํธ๊ฐ ์ด๋ฃจ์ด์ง ๊ฒ์์ ์๋ค. \(\theta_j := \theta_j \left( 1- \alpha \frac{\lambda}{m}\right) - \alpha \frac{1}{m} \sum_{i = 1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)}_j\)
-
$\left( 1- \alpha \frac{\lambda}{m}\right)$ ์ ๋งค๋ฒ ๊ณฑํ๋ ๋๋์ Gradient Descent.
- Normal equation์ ์ด์ฉํด์๋ ๋น์ทํ๊ฒ ํ ์ ์๋ค.
\(\theta = \left(X^T X + \lambda L\right)^{-1} X^T y\)
์ด๋ $L$ ์, Identity์์ ๋งจ ์ผ์ชฝ ์ ํญ์ด 0์ธ matrix์ด๋ค.
[[0, 0, 0], [0, 1, 0], [0, 0, 1]]
์ ๋ ๋๋. - ์๋์ Linear regression์ Example๋ณด๋ค Feature๊ฐ ๋ง์ผ๋ฉด Non-invertibleํ๋ค. ์ด๋, Regularization์ ์ฐ๋ฉด, $\lambda > 0$์ผ ๋, $X^T X + \lambda L$๊ฐ ๋ฐ๋์ invertibleํจ์ ๋ณด์ผ ์ ์๋ค.
Regularized Logistic Regression
- ๋ค์๊ณผ ๊ฐ์ update๋ฅผ ์ํํ๋ค. \(\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i = 1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)}_0\) \(\theta_j := \theta_j \left( 1- \alpha \frac{\lambda}{m}\right) - \alpha \frac{1}{m} \sum_{i = 1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x^{(i)}_j\)
- ๋ง์ฐฌ๊ฐ์ง๋ก, ์์ Linear ๋ฒ์ ๊ณผ ๋๊ฐ์ด ์๊ฒผ๋ค. ์ฐจ์ด๋ $h_\theta$๋ฟ.