본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[edwith] 딥러닝을 이용한 자연어 처리 : Neural N-Gram Language Model - 조경현교수

by manga0713 2021. 3. 18.

 

 

[LECTURE] Neural N-Gram Language Model : edwith

학습목표 신경망을 이용한 n-gram 언어 모델을 학습하고 이전에 해결하지 못한 데이터 희소성 문제를 해결해봅니다. 핵심키워드 Neural N-Gram Language Model ... - 커넥트재단

www.edwith.org

 

학습내용

 

  • Neural N-Gram Language Model
    • 신경망을 사용함으로서 데이터 희소성(data sparsity) 문제를 해결 할 수 있습니다.
  • 기존의 카운트 기반 모델 보다 훈련 데이터에서 나오지 않았었던 N-gram 을 계산 할 수가 있었습니다.
  • 어떻게 이것이 가능할까요? 그전에 데이터 희소성(data sparsity) 문제가 생기는 이유를 살펴봐야합니다.
    • 간단한 대답은 토큰들이 훈련시에는 생기지 않지만, 테스트시에 만 생기기 때문입니다.
    • 조금더 깊은 대답은 이산 공간(discrete space) 에서 카운트하여 토큰들의 유사도 측정이 불가능 하기 때문입니다.
    • 하지만 신경망에서는 토큰을 연속 벡터 공간(continuous vector space) 에 매핑(mapping) 시킵니다. 나오지 않았던 단어들도 유사도를 계산을 통해 연속 벡터 공간에서 의미가 있는 분포를 찾을 수 있게 됩니다. 이러한 학습을 통해 데이터 희소성 문제를 해결 할 수 있습니다.

 

- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : Neural N-Gram Language Model - 조경현교수