본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 1001 워드 임베딩(Word Embedding)

by manga0713 2021. 5. 21.

[ 이미지 출처 : lena-voita.guthub.io - Word Embeddings ]

 

워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환 함

 

 

1. 희소 표현(Sparse Representation)

 

- 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법(ex: one-hot vector)

- 단어 집합이 클수록 고차원의 벡터가 됨(공간적 낭비)

- 단어의 의미를 담지 못함

 

2. 밀집 표현(Dense Representation)

 

- 사용자가 설정한 값으로 모든 단어의 벡터 차원을 맞춤

- 설정된 차원은 실수값으로 채워짐

 

3. 워드 임베딩(Word Embedding)

 

- 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법(embedding vector)

- 방법론 : LSA, Word2Vec, FastText, Glove 등이 있음

 

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 1001 워드 임베딩(Word Embedding)