본문 바로가기

IT 와 Social 이야기/ML-DL48

[K-ICT 빅데이터센터] Ch12. 스팸메일 필터링 모델링-NaiveBayes-임정환교수 ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 주요 내용 정리 나이브 베이즈 분류기는 확률기반 분류기로 특징이 상호 독립적이라는 가정 하에 클래스 전체의 확률 분포 대비 특정 클래스에 속할 확률을 베이즈 정리를 기반으로 계산한다. CountVectorizer를 사용해 불용어 제거와 단어의 출현 빈도 특징을 추출할 수 있다. 벡터 변환 시 훈련 데이터에 대해서는 fit_transform()을 사용하고, 테스트 데이터에 대해서는 transform() 메서드를 사용한다. 나이브 베이즈 분류기는 특징의 출현 빈도 계산용 초기값 스무딩 파라미터 alpha와 학습 데이터에 대해 사전 확률 사용을 결정하는 파라미터 fit_prior로 파라미터 튜닝을 할 .. 2021. 4. 9.
[K-ICT 빅데이터센터] Ch11. 유방암 예측 모델링2-KNN-임정환교수 ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 9.
[K-ICT 빅데이터센터] Ch10. 온라인 광고 클릭 예측 모델링2-로지스틱회귀-임정환교수 주요정리 로지스틱 회귀의 반응 변수는 긍정(양성) 클래스의 확률 값을 가진다. 로지스틱 회귀의 반응 변수 값이 임계치 이상이면 긍정(양성) 클래스를 예측하고, 임계치 미만이면 부정(음성) 클래스를 예측한다. 반응 변수는 '로지스틱 함수(시그모이드 함수)'를 사용해 특징의 선형 조합 함수로 모델링된다. ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 8.
[K-ICT 빅데이터센터] Ch9. 온라인 광고 클릭 예측 모델링-의사결정트리-임정환교수 주요 정리 sklearn의 의사결정 트리 분류기는 CART 알고리즘의 분류에 대한 비용함수에서 지니 불순도를 기본적으로 사용한다. sklearn의 트리기반 알고리즘은 수치형 특징으로 입력 값으로 하기 때문에 범주형 특징은 원 핫 인코딩을 통해 이진 특징으로 변환한다. 혼동행렬은 실제 관측값을 얼마나 정확하게 예측했는지를 보여주는 행렬로 분류 모델의 성능 측정을 위한 평가지표 계산의 기반이 된다. 분류 모델의 평가 지표로 정확도, 정밀도, 재현율, F1 점수, 특이성, ROC 커브의 AUC(곡선하 면적) 등을 사용한다. 랜덤 포레스트는 특징 기반 배깅 방법을 적용한 의사결정트리의 앙상블로 의사결정 트리 모델의 고분산을 줄이며, 단일 트리보다 훨씬 더 좋은 성능을 제공한다. sklearn의 랜덤 포레스트 특.. 2021. 4. 7.