Coursera ML, Lecture 4 : Analytic Computation
Normal Equation
- Iteration์ ํตํด ๊ทน์์ ์ ์๋ ดํ๋ ๊ฒ์ด ์๋๋ผ, Analytically ์ต์ ํด $\theta$๋ฅผ ๊ตฌํ๋ ๋ฐฉ๋ฒ.
- ex) $J(\theta) = a\theta^2 + b\theta + c$ ($a > 0$) ๋ฅผ ์ต์ํํ๋ $\theta$ ๋ $-\frac{b}{2a}$ ์์ ์ฝ๊ฒ ์ ์ ์๋ค.
- How to do for vector parameter $J$?
- => Vector Calculus. $\pdv{}{\theta_i} J(\theta)$ ๊ฐ ๋ชจ๋ 0์ด ๋๋ $\theta$ ๋ฅผ ์ฐพ์ผ๋ฉด ๋๋ค.
- Parameter๋ค์ ํ๋ ฌ $X$๋ก ๋ง๋ค๊ณ , ์ด์ ๋์ํ๋ ๊ฐ๋ค์ $y$๋ก ๋ง๋ค์.
- $\theta = (X^T X)^{-1} X^T y$ ๊ฐ ์ฐ๋ฆฌ์ Linear Regression์ ๋์ํจ์ด ์๋ ค์ ธ ์๋ค.
- Feature scaling ๊ฐ์ ํ ํฌ๋ ๋ถํ์.
- Gradient Descent์ ๋๋นํ์ฌ..
- ์ฅ์ : $\alpha$๋ฅผ ์๊ฐํ์ง ์์๋ ๋๊ณ , ๋ฐ๋ณต์ ์ผ๋ก ์ ์ ํ $\alpha$๋ฅผ ์ฐพ์ ํ์๊ฐ ์๋ค.
- ๋จ์ : ํ๋ ฌ๊ณฑ์ ๋ฐ inverse๋ ๊ต์ฅํ ๋๋ฆผ. ํนํ $n$์ด ํฌ๋ฉด ํ๋ ฌ๊ณฑ์ ์ ์ฐ๊ธฐ ์ด๋ ต๋ค.
Noninvertible Case
- $(X^T X)$๊ฐ invertibleํ์ง ์์ผ๋ฉด??
- Pseudoinverse (octave pinv ํจ์)
- ํฌ๊ฒ ๋ ๊ฐ์ง ๊ฒฝ์ฐ
- ๋ feature๊ฐ ์ฌ์ค linear ๊ด๊ณ์ ์๋ ๊ฒฝ์ฐ.
- ex) size in feet^2 ์ size in m^2
- Design matrix $X$๊ฐ dependent column ๊ฐ์ง๋ค.
- Redundant features -> Throw away.
- Too many features.
- Data๋ ์ ์๋ฐ feature๋ ๋ง์ ๊ฒฝ์ฐ.
- Feature ๋ช๊ฐ ๋ฒ๋ฆฌ๊ธฐ / ๋๋ Regularization.
- ๋ feature๊ฐ ์ฌ์ค linear ๊ด๊ณ์ ์๋ ๊ฒฝ์ฐ.