1. 정수 인코딩(Integer Encoding)
단어에 고유한 정수 또는 인덱스를 부여할 때 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)를 만들고, 빈도가 높은 순서대로 차례로 낮은 숫자부터 부여하는 방법
1) dictionary 사용하기
2) Counter 사용하기
3) NLTK의 FreqDist 사용하기
4) enumerate 이해하기
enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴
2. 케라스(keras)의 텍스트 전처리
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 0208 원-핫 인코딩 One-Hot Encoding (0) | 2021.05.16 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0207 패딩 Padding (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression (0) | 2021.05.15 |
[딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization (0) | 2021.05.15 |
[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization (0) | 2021.05.15 |