- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Optimization methods(최적화 방법) - 조경현 교수
학습내용
- Loss 는 비순환그래프(DAG)를 거쳐 계산됩니다.
- 가설이 무수히 많기 때문에 모든 것을 다 시도해보고 최적인 것을 고를 수가 없습니다.
- 따라서, 일단 아무 곳을 선택한 후에 Loss 를 낮추는 방향으로 최적화를 진행합니다.
- 방법:
- Local, Iterative Optimization: Random Guided Search
- 장점: 어떤 비용함수를 사용해도 무관합니다.
- 단점: 차원이 작을 때는 잘 되지만, 차원의 저주 때문에 커질 수록 오래걸립니다. 샘플링(sampling) 에 따라서 오래걸립니다.
- Gradient-based Optimization:
- 미분을 통해 최적화 할 방향을 정합니다
- 장점: Random Guided search 에 비해서 탐색영역은 작지만 확실한 방향은 정할 수 있습니다.
- 단점: 학습률(Learning Rate)이 너무 크거나 작으면 최적의 값으로 못갈 수도 있습니다.
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[edwith] 딥러닝을 이용한 자연어 처리 : Gradient-Based Optimization(경사기반 최적화) - 조경현 교수 (0) | 2021.03.16 |
---|---|
[edwith] 딥러닝을 이용한 자연어 처리 : Backpropagation(역전파 알고리즘) - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Loss Function(비용함수) - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Probability in 5 Minutes - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Loss Function - Preview(비용함수) - 조경현 교수 (0) | 2021.03.16 |