본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW)

by manga0713 2021. 5. 16.

1. Bag of Words란?

 

- 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

- 만드는 과정

  • 우선, 각 단어에 고유한 정수 인덱스를 부여
  • 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성

 

3. CountVectorizer 클래스로 BoW 만들기

 

 

4. 블용어를 제거한 BoW 만들기

 

 

nlp_0402_bag of words.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW)