본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0208 원-핫 인코딩 One-Hot Encoding

by manga0713 2021. 5. 16.

○ 단어 집합(vocabulary) : 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓은 것

 

1. 원-핫 인코딩(One-Hot Encoding)이란?

 

- 원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식. 이렇게 표현된 벡터를 원-핫 벡터(One-Hot vector)라고 함

 

- 두 가지 과정

 

 

2. 케라스(keras)를 이용한 원-핫 인코딩(One-Hot Encoding)

 

 

3. 원-핫 인코딩(One-Hot Encoding)의 한계

 

- 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간(벡터의 차원)이 계속 늘어남

- 단어의 유사도는 표현하지 못함

 

nlp_0208_one hot encoding 원핫 인코딩.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0208 원-핫 인코딩 One-Hot Encoding