주요 정리
- sklearn의 의사결정 트리 분류기는 CART 알고리즘의 분류에 대한 비용함수에서 지니 불순도를 기본적으로 사용한다.
- sklearn의 트리기반 알고리즘은 수치형 특징으로 입력 값으로 하기 때문에 범주형 특징은 원 핫 인코딩을 통해 이진 특징으로 변환한다.
- 혼동행렬은 실제 관측값을 얼마나 정확하게 예측했는지를 보여주는 행렬로 분류 모델의 성능 측정을 위한 평가지표 계산의 기반이 된다.
- 분류 모델의 평가 지표로 정확도, 정밀도, 재현율, F1 점수, 특이성, ROC 커브의 AUC(곡선하 면적) 등을 사용한다.
- 랜덤 포레스트는 특징 기반 배깅 방법을 적용한 의사결정트리의 앙상블로 의사결정 트리 모델의 고분산을 줄이며, 단일 트리보다 훨씬 더 좋은 성능을 제공한다.
- sklearn의 랜덤 포레스트 특징 중요도는 개별 트리의 특징 중요도를 모두 합한 후 트리의 수로 나눈 것으로 중요도의 합이 1이 되도록 결과값을 정규화한다.
★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/...
'IT 와 Social 이야기 > ML-DL' 카테고리의 다른 글
[K-ICT 빅데이터센터] Ch11. 유방암 예측 모델링2-KNN-임정환교수 (0) | 2021.04.09 |
---|---|
[K-ICT 빅데이터센터] Ch10. 온라인 광고 클릭 예측 모델링2-로지스틱회귀-임정환교수 (0) | 2021.04.08 |
[K-ICT 빅데이터센터] Ch8. 와인 품질 데이터를 활용한 분석 모델링-선형회귀모델, 규제선형회귀모델-임정환교수 (1) | 2021.04.07 |
[K-ICT 빅데이터센터] Ch7. 와인 품질 데이터를 활용한 분석 모델링-임정환교수 (0) | 2021.04.06 |
[K-ICT 빅데이터센터] Ch6. 파이썬 교차검증, 특징공학-임정환교수 (0) | 2021.04.05 |