- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Loss Function(비용함수) - 조경현 교수
학습내용
- 지도학습은 Input(x) 값을 넣었을 때 Output(y) 값을 산출 하는 것입니다. 하지만 조금만 다르게 생각해서, Input(x) 값이 주어졌을 때 의 Output(y) 값이 y’ 일 확률을 구하는 것으로 생각할 수 있습니다.
- fθ(x)= ?→p(y=y′∣x)= ?
- 어떤 확률 분포들이 있을까요?
- 이진 분류: 베르누이(Bernoulli) 분포
- 다중 분류: 카테고리(Categorical) 분포
- 선형 회귀: 가우시안(Gaussian) 분포
- 다항 회귀: 가우시안 믹스쳐(Mixture of Gaussians)
- 인공신경망 모델이 조건부 확률 분포를 출력하면 이를 사용해서 비용함수를 정의 할 수 있습니다.
- 최대한 모델이 출력한 조건부 확률 분포가 훈련 샘플의 확률분포와 같게 만드는 것입니다. 즉 모든 훈련 샘플이 나올 확률을 최대화 하는 것입니다.
- argθmaxlogpθ(D)=argθmaxn=1∑Nlogpθ(yn∣xn)
- 이렇게 함으로서 자동으로 비용함수를 정의 할 수 있습니다. 이를 최대 우도 추정(Maximum Likelihood Estimation)라고 합니다.
- Log 를 사용하는 이유는 여러가지가 있지만, 이 강의에서는 이야기 하지 않겠습니다.
- 또한 최소화를 하기 위해서 앞에 마이너스 부호를 붙여줍니다. (-1 을 곱합니다.)
- 최종적으로, 비용함수는 음의 로그확률(Negative Log-probabilities)의 합으로 결정됩니다.
- L(θ)=n=1∑Nl(Mθ(xn),yn)=−n=1∑Nlogpθ(yn∣xn)
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[edwith] 딥러닝을 이용한 자연어 처리 : Backpropagation(역전파 알고리즘) - 조경현 교수 (0) | 2021.03.16 |
---|---|
[edwith] 딥러닝을 이용한 자연어 처리 : Optimization methods(최적화 방법) - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Probability in 5 Minutes - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Loss Function - Preview(비용함수) - 조경현 교수 (0) | 2021.03.16 |
[edwith] 딥러닝을 이용한 자연어 처리 : Hypothesis Set(가설집합) - 조경현 교수 (0) | 2021.03.16 |