1. Bag of Words란?
- 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
- 만드는 과정
- 우선, 각 단어에 고유한 정수 인덱스를 부여
- 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성
3. CountVectorizer 클래스로 BoW 만들기
4. 블용어를 제거한 BoW 만들기
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 0501 코사인 유사도 Cosine Similarity (0) | 2021.05.17 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) (0) | 2021.05.17 |
[딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0209 데이터의 분리 Splitting Data (0) | 2021.05.16 |