[edwith] 딥러닝을 이용한 자연어 처리 : Gradient-Based Optimization(경사기반 최적화)

[LECTURE] Gradient-Based Optimization : edwith

학습목표 경사기반 최적화기법에 대해 학습합니다. 핵심키워드 경사기반 최적화기법(Gradient-Based Optimization) 확률적 경사 하강법(Stochastic Gradi... - 커넥트재단

www.edwith.org

학습내용

Off-the-shelf gradient-based optimization
- Gradient descent, L-BFGS, Conjugate gradient 등 방법 들이 있습니다.
- 그러나 위 방법들은 매개변수(parameters)가 많아질 수록 시간이 오래걸립니다.
- 그 이유는 훈련 샘플 전체의 Loss 는 각 샘플에 대한 Loss 의 합으로 구해지며, 데이터가 많아 질 수록 오래 걸리기 때문입니다.

1. M개의 훈련 샘플을 선택합니다. 이를 미니배치(Mini batch) 라고 합니다.

D′={(x1,y1),⋯,(xN′,yN′)}

2. 미니배치 경사를 계산합니다.

3. 매개변수를 업데이트합니다.

θ←θ+η▽L(θ;D′)

4. 검증 세트로 구한 validation loss 가 더 이상 진전이 없을때까지 진행합니다

적응적 학습률(Adaptive Learning Rate)
- 확률적 경사 하강 법은 학습률에 민감합니다. 이를 보완하기 위해서 다양한 Adam, Adadelta 등 다양한 알고리즘이 나왔습니다.

[edwith] 딥러닝을 이용한 자연어 처리 : Q n A(Basic Machine Learning: Supervised Learning) - 조경현 교수 (0)	2021.03.16
[edwith] 딥러닝을 이용한 자연어 처리 : Summary(Basic Machine Learning: Supervised Learning) - 조경현 교수 (0)	2021.03.16
[edwith] 딥러닝을 이용한 자연어 처리 : Backpropagation(역전파 알고리즘) - 조경현 교수 (0)	2021.03.16
[edwith] 딥러닝을 이용한 자연어 처리 : Optimization methods(최적화 방법) - 조경현 교수 (0)	2021.03.16
[edwith] 딥러닝을 이용한 자연어 처리 : Loss Function(비용함수) - 조경현 교수 (0)	2021.03.16

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

망가천재의 스토리텔링