○ Scikit-Learn 문서 전처리 기능
- DictVectorizer:
- 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다.
- CountVectorizer:
- 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다.
- TfidfVectorizer:
- CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를 만든다.
- HashingVectorizer:
- 해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로 BOW 인코딩 벡터를 만든다.
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] ml8.1 이미지 처리 기초 (0) | 2021.05.07 |
---|---|
[데이터 사이언스 스쿨] ml7.1 확률론적 언어 모형 (0) | 2021.05.07 |
[데이터 사이언스 스쿨] ml4.1 KoNLPy 한국어 처리 패키지 (0) | 2021.05.06 |
[데이터 사이언스 스쿨] ml3.1 NLTK 자연어 처리 패키지 (0) | 2021.05.06 |
[데이터 사이언스 스쿨] ml2.2 범주형 데이터 처리 (0) | 2021.05.06 |