Word2Vec와 GloVe 중에서 어떤 것이 더 뛰어나다고 말할 수는 없고, 이 두 가지 전부를 사용해보고 성능이 더 좋은 것을 사용하는 것이 바람직함
2. 윈도우 기반 동시 등장 행렬(Window based Co-occurrence Matrix)
- 단어의 동시 등장 행렬은 행과 열을 전체 단어 집합의 단어들로 구성하고, i 단어의 윈도우 크기(Window Size) 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬
- 코퍼스가 다음과 같을 때
I like deep learning
I like NLP
I enjoy flying
- 행렬은
- 위 행렬은 행렬은 i 단어의 윈도우 크기 내에서 k 단어가 등장한 빈도는 반대로 k 단어의 윈도우 크기 내에서 i 단어가 등장한 빈도와 동일하기 때문에 전치(Transpose)해도 동일한 행렬이 됨
3. 동시 등장 확률(Co-occurrence Probability)
- 동시 등장 확률 P(k | i)는 동시 등장 행렬로부터 특정 단어 i의 전체 등장 횟수를 카운트하고, 특정 단어 i가 등장했을 때 어떤 단어 k가 등장한 횟수를 카운트하여 계산한 조건부 확률
5. GloVe 훈련시키기
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 1008 사전 훈련된 워드 임베딩(Pre-trained Word Embedding) (0) | 2021.05.22 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 1006 패스트텍스트(FastText) (0) | 2021.05.21 |
[딥러닝을이용한 자연어 처리 입문] 1004 네거티브 샘플링을 이용한 Word2Vec 구현(Skip-Gram with Negative Sampling, SGNS) (0) | 2021.05.21 |
[딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 (0) | 2021.05.21 |
[딥러닝을이용한 자연어 처리 입문] 1002 워드투벡터(Word2Vec) (0) | 2021.05.21 |