본문 바로가기
IT 와 Social 이야기/ML-DL

[K-ICT 빅데이터센터] Ch9. 온라인 광고 클릭 예측 모델링-의사결정트리-임정환교수

by manga0713 2021. 4. 7.

 

 

online ad click predict.ipynb
0.13MB

 

 

주요 정리

  1. sklearn의 의사결정 트리 분류기는 CART 알고리즘의 분류에 대한 비용함수에서 지니 불순도를 기본적으로 사용한다.
  2. sklearn의 트리기반 알고리즘은 수치형 특징으로 입력 값으로 하기 때문에 범주형 특징은 원 핫 인코딩을 통해 이진 특징으로 변환한다.
  3. 혼동행렬은 실제 관측값을 얼마나 정확하게 예측했는지를 보여주는 행렬로 분류 모델의 성능 측정을 위한 평가지표 계산의 기반이 된다.
  4. 분류 모델의 평가 지표로 정확도, 정밀도, 재현율, F1 점수, 특이성, ROC 커브의 AUC(곡선하 면적) 등을 사용한다.
  5. 랜덤 포레스트는 특징 기반 배깅 방법을 적용한 의사결정트리의 앙상블로 의사결정 트리 모델의 고분산을 줄이며, 단일 트리보다 훨씬 더 좋은 성능을 제공한다.
  6. sklearn의 랜덤 포레스트 특징 중요도는 개별 트리의 특징 중요도를 모두 합한 후 트리의 수로 나눈 것으로 중요도의 합이 1이 되도록 결과값을 정규화한다.

 

 

 

 

 

 

 

 

 

 

★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/...