본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[edwith] 딥러닝을 이용한 자연어 처리 : CBoW & RN & CNN - 조경현교수

by manga0713 2021. 3. 17.

 

 

[LECTURE] CBoW & RN & CNN : edwith

학습목표 문장을 표현하는 방법중 CBoW, RN, CNN 에 대해서 알아봅니다. 핵심키워드 문장표현(Sentence representation) Continuous bag-of-w... - 커넥트재단

www.edwith.org

 

학습내용

  • 문장표현(Sentence representation)의 의미: 어떤 과제를 풀기에 적합하고 숫자로 나타낸 문장의 표현입니다
  • CBoW(Continuous bag-of-words):
    • 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다. 
    • 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구합니다.
    • 효과가 좋기 때문에 제일 먼저 시도해봐야합니다. (Baseline 모델)
    • 공간상에서 가까우면 비슷한 의미, 아니면 멀리 떨어져 있을 것입니다.
  • Relation Network(Skip-Bigram):
    • 문장안에 있는 모든 토큰 쌍(pairs)을 보고, 각 쌍에 대해서 신경망을 만들어서 문장표현을 찾습니다.
    • 장점: 여러 단어로 된 표현을 탐지 할 수 있습니다.
    • 단점: 모든 단어간의 관계를 보기 때문에, 전혀 연관이 없는 단어도 보게 됩니다.
  • Convolution Neural Network(CNN):
    • 특징:
      • k-gram을 계층적으로(hierachically) 보게 됩니다.
      • Layer 를 쌓을 때 마다, 점진적으로 넓은 범위를 보기 때문에, "단어> 다중 단어 표현> 구절 > 문장"순으로 보는 인간의 인식과도 알맞습니다. 
      • 1차원의 Convolutional Network 입니다.
    • 장점: 좁은 지역간 단어의 관계를 볼수 있습니다.

 

- 출처: [edwith] 딥러닝을 이용한 자연어 처리 : CBoW & RN & CNN - 조경현교수