AI/LG Aimers

[LG Aimers 교육] Module.2 지도학습 -Part3.Gradient Descent Algorithm

Opti-Mr 2022. 7. 11. 23:21
반응형

Gradient Descent Algorithm (경사하강법)

기울기(gradient) 값을 기반으로 가중치를 업데이트하는 최적화 기법

알파값 : hyper parameter(사용자가 직접 지정해야하는 값) 

     - 너무 크면 에러값이 발산하고, 너무 작으면 수렴속도가 느리므로 중간정도의 값이 가장 적당.

세타값 : 구하고자하는 값

J값 : 최소화하고자하는 목적함수

- Batch gradient descent (배치 경사하강법)

Batch"(일괄 처리를 위해) 함께 묶다; 집단; 묶음"

전체 샘플을 확인해야 겨우 한 값 구함.

- Stochastic gradient descent (SGD : 확률적 경사하강법)

: 전체 샘플을 1로 바꾸고 진행

노이즈 (Oscillation)많이 발생

---- Local optimum 문제----

Gradient Descent Algorithm의 local minimum 문제 해결대책

1. Momentum

과거의 gradient값을 누적함으로써 0이되더라도 계속해서 진행이 가능함.

- Nesteroy momentum

 s기울기가 미리 평가됨(lookahead)

2. AdaGrad

learning rate와 accumulated gradient의 비율을 일정하게 조절

(gradient값 크면 데이터가 많다고 판단하여 델타세타를 작게해서 천천히 learning 하도록 함)

단점) gradient값이 누적되면 learning rate가 작아져버려 학습이 일어나지 않을 수가 있음

3. RMSProp

AdaGrad는 확확 학습량이 준다면 RMSProp은 완충된 속도로 학습량이 줄어듦

4. Adam(Adaptive moment estimation) 가장 많이 사용됨

: RMSProp + momentum

첫번째 순간은 momentum으로 계산

두번째 순간은 RMSProp으로 계산

correct the bias (통계적으로 안정시키기위해)

update the parameter

-----과적합문제-----

1. feature 갯수 줄이기

2. Regularization 정규화

feature갯수는 그대로, parameter규모 줄이기

 

 

반응형