$$
\newcommand{\floor}[1]{\left\lfloor #1 \right\rfloor}
\newcommand{\ceil}[1]{\left\lceil #1 \right\rceil}
\newcommand{\N}{\mathbb{N}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\C}{\mathbb{C}}
\renewcommand{\L}{\mathcal{L}}
\newcommand{\x}{\times}
\newcommand{\contra}{\scalebox{1.5}{$\lightning$}}
\newcommand{\inner}[2]{\left\langle #1 , #2 \right\rangle}
\newcommand{\st}{\text{ such that }}
\newcommand{\for}{\text{ for }}
\newcommand{\Setcond}[2]{ \left\{\, #1 \mid #2 \, \right\}}
\newcommand{\setcond}[2]{\Setcond{#1}{#2}}
\newcommand{\seq}[1]{ \left\langle #1 \right\rangle}
\newcommand{\Set}[1]{ \left\{ #1 \right\}}
\newcommand{\set}[1]{ \set{#1} }
\newcommand{\sgn}{\text{sign}}
\newcommand{\halfline}{\vspace{0.5em}}
\newcommand{\diag}{\text{diag}}
\newcommand{\legn}[2]{\left(\frac{#1}{#2}\right)}
\newcommand{\ord}{\text{ord}}
\newcommand{\di}{\mathrel{|}}
\newcommand{\gen}[1]
\newcommand{\irr}{\mathrm{irr }}
\renewcommand{\deg}{\mathrm{deg }}
\newcommand{\nsgeq}{\trianglelefteq}
\newcommand{\nsg}{\triangleleft}
\newcommand{\argmin}{\mathrm{argmin}}
\newcommand{\argmax}{\mathrm{argmax}}
\newcommand{\minimize}{\mathrm{minimize}}
\newcommand{\maximize}{\mathrm{maximize}}
\newcommand{\subto}{\mathrm{subject\ to}}
\newcommand{\DKL}[2]{D_{\mathrm{KL}}\left(#1 \di\di #2\right)}
\newcommand{\ReLU}{\mathrm{ReLU}}
\newcommand{\E}{\mathsf{E}}
\newcommand{\V}{\mathsf{Var}}
\newcommand{\Corr}{\mathsf{Corr}}
\newcommand{\Cov}{\mathsf{Cov}}
\newcommand{\covariance}[1]{\Cov\left(#1\right)}
\newcommand{\variance}[1]{\V\left[#1\right]}
\newcommand{\variancewith}[1]{\V\left[#1\right]}
\newcommand{\expect}[1]{\E\left[#1\right]}
\newcommand{\expectwith}[2]{\E_{#1}\left[#2\right]}
\renewcommand{\P}{\mathsf{P}}
\newcommand{\uniform}[2]{\mathrm{Uniform}\left(#1 \dots #2\right)}
\newcommand{\gdist}[2]{\mathcal{N}\left(#1, #2\right)}
\DeclarePairedDelimiter{\norm}{\lVert}{\rVert}
$$
\everymath{\displaystyle}
Back to : ml-study
Contents
Motivation
- Complex, nonlinear hypothesis
- ๋ง์ ์์ polynomial feature์ ์ธ ์๋ ์๊ฒ ์ง๋งโฆ ์ฌ๋ฌ ๊ฐ์ feature๋ฅผ ๊ฐ์ง ๋ฌธ์ ์ ์ ์ฉํ๊ธฐ๋ ์ด๋ ต๋ค.
- 100๊ฐ์ feature๊ฐ ์๋ค๋ฉด? ๊ทธ ์ด์์ด๋ผ๋ฉด? ์ ์ ํ ๊ณ ์ฐจํญ์ ์ฐ๊ธฐ๋ ๋งค์ฐ ์ด๋ ค์ด ์ผ.
- ex) Computer Vision. ์ด ์ด๋ฏธ์ง๋ ์ฐจ๋์ธ๊ฐ?
- Pixel intensity matrix๋ฅผ ๋ณด๊ณ ์๋์ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ ์ ์๋๊ฐ?
- Classification problem.
- Feature size = ํฝ์
์ ์ (x3 if RGB)
- ์ด๋ ๊ฒ ๋ง์ feature๋ก๋ logistic regression๊ฐ์ ์๊ณ ๋ฆฌ์ฆ์ ์ธ ์๊ฐ ์๋ค.
- Goal : Algorithm that mimics brain.
Background
- 80๋
๋-90๋
๋ ์ด์ ํฌ๊ฒ ์ ํํ์ผ๋, 90๋
๋ ๋ง์๋ ๋ณ๋ก..
- Computationally expensive.
- ํ๋์๋ ์ด์ ๋ ์์์ ์ฌ์ฉํ ๋ง ํ๋ค => STATE OF THE ART
- ๋๋ ์๋ง์ ๊ธฐ๋ฅ์ ์ฒ๋ฆฌํ๋ค -> ์ด ๋ง์ ๊ธฐ๋ฅ (์ธ์ด, ์๊ฐ, ์ฒญ๊ฐโฆ) ์ ๊ฐ๊ฐ ๊ตฌํํด์ผ ํ๋๊ฐ?
- NO.
ONE LEARNING ALGORITHM HYPOTHESIS
์ ์ํ๋ฉด, ์ค์ ๋ก ๋์์ ์๋ํ๋ ๊ฒ์ ๋จ ํ๋์ ํ์ต ์๊ณ ๋ฆฌ์ฆ.
- ์ฒญ๊ฐ ๊ด๋ จ ๊ธฐ๋ฅ์ ๋๊ณ ์๊ฐ ๊ด๋ จ ๋ถ๋ถ์ ์ด๋ฅผ ์ฐ๊ฒฐํ๋ฉด, ๋๊ฐ ์์์ ์ ๋งคํํด์ ์๋ํ๋๋ผ.
- Brain rewiring experiment
- ๋์ ๋ค๋ฅธ ์ผ์๋ ์ ์ฐ๊ฒฐํ๋ฉด (direction ๋ฑ) ๋๋ต ์ ์๋ํ๋๋ผ.
- ์๋ง๋ ๊ฐ๊ฐ์ ๊ธฐ๋ฅ์ ๋ณ๊ฐ์ sw๊ฐ ์๋๊ฒ์ด๋ค.
- Neuron : ์ ๊ฒฝ๊ณ๋ฅผ ๊ตฌ์ฑํ๋ ๊ธฐ๋ณธ ์ธํฌ.
- Inputs (Dendrites)
- Outputs (Axons)
- I/O๋ฅผ ๊ฐ์ง ๊ธฐ๋ณธ์ ์ธ ๊ณ์ฐ ๋จ์์ฒ๋ผ ์๊ฐํ ์ ์๋ค.
Neuron Model
- Logistic Unit : $x_1, x_2, x_3$ ์ ์
๋ ฅ๋ฐ์์ $h_\theta(x)$๋ฅผ computeํ๋ neuron์ ์๊ฐ.
- Layer structure (Neural Network) : Neuron๋ค์ output์ ๋ค์ ๋ฐ์์ ์๋ก์ด ๊ฐ์ ๊ณ์ฐํ๋ neuron๊ฐ์ layer๋ฅผ ์๋ ๋๋.
- Layer 1 (Input Layer) - ๋งจ ๋ (Output Layer) ์ฌ์ด์ Hidden layer๋ค์ด ์์นํ๋ ๊ตฌ์กฐ.
- Bias unit ๊ฐ์ ์ถ๊ฐ ํ
ํฌ๋๋ค ์ฌ์ฉ.
- $a_i^{(j)}$ : โActivationโ of unit $i$ in layer $j$
- $\Theta^(j)$ : Matrix of weights, ๋ค์ layer๋ก ๋์ด๊ฐ๋ ๊ฐ๋ค.
- Forward Propagation์ Vectorize๋ฅผ ํตํด ๋น๊ต์ ํจ์จ์ ์ผ๋ก ์ฐ์ฐ ๊ฐ๋ฅํ๋ค.
- ์ด ๋ฐฉ๋ฒ์ด ์ ์ข์๊ฐ?
- ๋งจ ๋ Layer (Output Layer) ๋ ์ผ์ข
์ Logistic regression
- ๊ทธ ์ด์ ์ Hidden layer๋ ๊ทธ ์์ฒด๊ฐ Learning๋ ๊ฒฐ๊ณผ๋ฌผ. ์ฆ, feature ์์ฒด๊ฐ ํ์ต์ ํตํด ๋ฐ์ ํ๋ค.
- Flexibleํ ๋ฐฉ๋ฒ.
Back to : ml-study