사이킷런2 [데이터 사이언스 스쿨] ml5.1 Scikit-Learn의 문서 전처리 기능 ○ BoW(Bag of Words) 인코딩 문서를 숫자 벡터로 변환하는 가장 기본적인 방법으로 전체 문서 {d1,d2,…,dn}를 구성하는 고정된 단어장(vocabulary) {t1,t2,…,tm}를 만들고 di라는 개별 문서에 단어장에 해당하는 단어들이 포함되어 있는지를 표시하는 방법이다. (없으면 0, 있으면 1) ○ Scikit-Learn 문서 전처리 기능 DictVectorizer: 각 단어의 수를 세어놓은 사전에서 BOW 인코딩 벡터를 만든다. CountVectorizer: 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 벡터를 만든다. TfidfVectorizer: CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 인코딩 벡터를.. 2021. 5. 7. [K-ICT 빅데이터센터] Ch5. 파이썬 Scikit-Learn 소개 및 활용-임정환교수 ★ Scikit-Learn Estimator API 기본 활용 절차 1. 데이터 준비 2. 모델 클래스 선택 3. 모델 인스턴스 생성과 하이퍼파라미터 선택 4. 특징 행렬과 대상 벡터 준비 5. 모델을 데이터에 적합 6. 새로운 데이터를 이용해 예측 7. 모델평가 ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 1. 이전 1 다음