본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding

by manga0713 2021. 5. 15.

1. 정수 인코딩(Integer Encoding)

 

단어에 고유한 정수 또는 인덱스를 부여할 때 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)를 만들고, 빈도가 높은 순서대로 차례로 낮은 숫자부터 부여하는 방법

 

1) dictionary 사용하기

 

 

2) Counter 사용하기

 

 

3) NLTK의 FreqDist 사용하기

 

 

 

4) enumerate 이해하기

 

enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴

 

 

 

2. 케라스(keras)의 텍스트 전처리

 

 

nlp_0206_integer encoding 정수 인코딩.ipynb
0.02MB

 

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding