본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] ml5.1 Scikit-Learn의 문서 전처리 기능

by manga0713 2021. 5. 7.

○ BoW(Bag of Words) 인코딩

 

문서를 숫자 벡터로 변환하는 가장 기본적인 방법으로 전체 문서 {d1,d2,,dn}를 구성하는 고정된 단어장(vocabulary) {t1,t2,,tm}를 만들고 di라는 개별 문서에 단어장에 해당하는 단어들이 포함되어 있는지를 표시하는 방법이다. (없으면 0, 있으면 1)

 

 

○ Scikit-Learn 문서 전처리 기능

 

  • DictVectorizer:
    • 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.
  • CountVectorizer:
    • 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.
  • TfidfVectorizer:
    • CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.
  • HashingVectorizer:
    • 해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로 BOW 인코딩 벡터를 만든다.

 

 

 

dss_ml5_1_sklearn preprocessing 문서 전처리 기능.ipynb
0.03MB

 

- 출처 : [데이터 사이언스 스쿨] ml5.1 Scikit-Learn의 문서 전처리 기능