○ 단어 집합(vocabulary) : 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓은 것
1. 원-핫 인코딩(One-Hot Encoding)이란?
2. 케라스(keras)를 이용한 원-핫 인코딩(One-Hot Encoding)
3. 원-핫 인코딩(One-Hot Encoding)의 한계
- 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간(벡터의 차원)이 계속 늘어남
- 단어의 유사도는 표현하지 못함
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text (0) | 2021.05.16 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0209 데이터의 분리 Splitting Data (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0207 패딩 Padding (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding (0) | 2021.05.15 |
[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression (0) | 2021.05.15 |