학습내용
- 문장표현(Sentence representation)의 의미: 어떤 과제를 풀기에 적합하고 숫자로 나타낸 문장의 표현입니다
- CBoW(Continuous bag-of-words):
- 단어장을 단어 주머니로 보게되고, 이에 따라 단어의 순서는 무시합니다.
- 문장에 대한 표현은 단어 벡터들을 평균시킨 벡터로 구합니다.
- 효과가 좋기 때문에 제일 먼저 시도해봐야합니다. (Baseline 모델)
- 공간상에서 가까우면 비슷한 의미, 아니면 멀리 떨어져 있을 것입니다.
- Relation Network(Skip-Bigram):
- 문장안에 있는 모든 토큰 쌍(pairs)을 보고, 각 쌍에 대해서 신경망을 만들어서 문장표현을 찾습니다.
- 장점: 여러 단어로 된 표현을 탐지 할 수 있습니다.
- 단점: 모든 단어간의 관계를 보기 때문에, 전혀 연관이 없는 단어도 보게 됩니다.
- Convolution Neural Network(CNN):
- 특징:
- k-gram을 계층적으로(hierachically) 보게 됩니다.
- Layer 를 쌓을 때 마다, 점진적으로 넓은 범위를 보기 때문에, "단어> 다중 단어 표현> 구절 > 문장"순으로 보는 인간의 인식과도 알맞습니다.
- 1차원의 Convolutional Network 입니다.
- 장점: 좁은 지역간 단어의 관계를 볼수 있습니다.
- 특징: