본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[edwith] 딥러닝을 이용한 자연어 처리 : Loss Function(비용함수) - 조경현 교수

by manga0713 2021. 3. 16.

 

 

[LECTURE] Loss Function : edwith

학습목표 지도학습에서 비용함수의 정의를 학습합니다. 핵심키워드 지도학습(Supervised Learning) 비용함수(Loss Function) 최대 우도 추정(Maximum Li... - 커넥트재단

www.edwith.org

 

- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Loss Function(비용함수) - 조경현 교수

 

 

학습내용

  • 지도학습은 Input(x) 값을 넣었을 때 Output(y) 값을 산출 하는 것입니다. 하지만 조금만 다르게 생각해서, Input(x) 값이 주어졌을 때 의 Output(y) 값이 y’ 일 확률을 구하는 것으로 생각할 수 있습니다.
    •  fθ(x)= ?p(y=yx)= ? 
  • 어떤 확률 분포들이 있을까요?
    • 이진 분류: 베르누이(Bernoulli) 분포
    • 다중 분류: 카테고리(Categorical) 분포
    • 선형 회귀: 가우시안(Gaussian) 분포
    • 다항 회귀: 가우시안 믹스쳐(Mixture of Gaussians)
  • 인공신경망 모델이 조건부 확률 분포를 출력하면 이를 사용해서 비용함수를 정의 할 수 있습니다.
    • 최대한 모델이 출력한 조건부 확률 분포가 훈련 샘플의 확률분포와 같게 만드는 것입니다. 즉 모든 훈련 샘플이 나올 확률을 최대화 하는 것입니다.
    •  argθmaxlogpθ(D)=argθmaxn=1Nlogpθ(ynxn) 
    • 이렇게 함으로서 자동으로 비용함수를 정의 할 수 있습니다. 이를 최대 우도 추정(Maximum Likelihood Estimation)라고 합니다.
  • Log 를 사용하는 이유는 여러가지가 있지만, 이 강의에서는 이야기 하지 않겠습니다.
  • 또한 최소화를 하기 위해서 앞에 마이너스 부호를 붙여줍니다. (-1 을 곱합니다.)
  • 최종적으로, 비용함수는 음의 로그확률(Negative Log-probabilities)의 합으로 결정됩니다.
    •  L(θ)=n=1Nl(Mθ(xn),yn)=n=1Nlogpθ(ynxn)