본문 바로가기
IT 와 Social 이야기/ML-DL

[K-ICT 빅데이터센터] Ch12. 스팸메일 필터링 모델링-NaiveBayes-임정환교수

by manga0713 2021. 4. 9.

[ 출처 : actruce.com - 나이브 베이즈 분류기 응용 ]

 

 

spam mail filtering.ipynb
0.05MB

 

 

강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/...

 

 

 

 

 

 

 

주요 내용 정리

  1. 나이브 베이즈 분류기는 확률기반 분류기로 특징이 상호 독립적이라는 가정 하에 클래스 전체의 확률 분포 대비 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산한다.
  2. CountVectorizer를 사용해 불용어 제거와 단어의 출현 빈도 특징을 추출할 수 있다.
  3. 벡터 변환 시 훈련 데이터에 대해서는 fit_transform()을 사용하고, 테스트 데이터에 대해서는 transform() 메서드를 사용한다.
  4. 나이브 베이즈 분류기는 특징의 출현 빈도 계산용 초기값 스무딩 파라미터 alpha와 학습 데이터에 대해 사전 확률 사용을 결정하는 파라미터 fit_prior로 파라미터 튜닝을 할 수 있다