1. Fancier Optimization 이전시간에 SGD를 배움-> 여러 단점으로 실제로 사용하기 어려움 단점1. 학습속도가 느림 세로: 경사 급함 가로: 경사 완만 => 지그재그로 움직이게 됨 Neural Network has many parameters -> 학습속도가 매우 느려짐 단점2. Global minima 가 아닌 local minima, saddle point 에서 정지할 수 있음 (grdient 값이 0이어서) Local minima / saddle point 근처이면 gradient 0에 가까워짐 단점3. 매 스텝마다 정확한 gradient를 담을 수 없음 개선방안 1. SGD + Momentum 방안2. Nesterov Momentum velocity 먼저 이용해 계산 방안3. A..