본문 바로가기

머신러닝98

[K-ICT 빅데이터센터] Ch11. 유방암 예측 모델링2-KNN-임정환교수 ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 9.
[K-ICT 빅데이터센터] Ch10. 온라인 광고 클릭 예측 모델링2-로지스틱회귀-임정환교수 주요정리 로지스틱 회귀의 반응 변수는 긍정(양성) 클래스의 확률 값을 가진다. 로지스틱 회귀의 반응 변수 값이 임계치 이상이면 긍정(양성) 클래스를 예측하고, 임계치 미만이면 부정(음성) 클래스를 예측한다. 반응 변수는 '로지스틱 함수(시그모이드 함수)'를 사용해 특징의 선형 조합 함수로 모델링된다. ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 8.
[K-ICT 빅데이터센터] Ch9. 온라인 광고 클릭 예측 모델링-의사결정트리-임정환교수 주요 정리 sklearn의 의사결정 트리 분류기는 CART 알고리즘의 분류에 대한 비용함수에서 지니 불순도를 기본적으로 사용한다. sklearn의 트리기반 알고리즘은 수치형 특징으로 입력 값으로 하기 때문에 범주형 특징은 원 핫 인코딩을 통해 이진 특징으로 변환한다. 혼동행렬은 실제 관측값을 얼마나 정확하게 예측했는지를 보여주는 행렬로 분류 모델의 성능 측정을 위한 평가지표 계산의 기반이 된다. 분류 모델의 평가 지표로 정확도, 정밀도, 재현율, F1 점수, 특이성, ROC 커브의 AUC(곡선하 면적) 등을 사용한다. 랜덤 포레스트는 특징 기반 배깅 방법을 적용한 의사결정트리의 앙상블로 의사결정 트리 모델의 고분산을 줄이며, 단일 트리보다 훨씬 더 좋은 성능을 제공한다. sklearn의 랜덤 포레스트 특.. 2021. 4. 7.
[K-ICT 빅데이터센터] Ch8. 와인 품질 데이터를 활용한 분석 모델링-선형회귀모델, 규제선형회귀모델-임정환교수 주요 정리 선형회귀모델의 성능을 측정하는 평가 지표로 RMSE를 사용할 수 있다. 과분산 선형회귀모델에 대해 규제를 적용하면 오버피팅 문제를 감소시킬 수 있다. 리지회귀모델은 규제가 있는 선형회귀모델로 가중치 벡터의 제곱항을 합한 L2노름을 2로 나눈 값을 적용한다. 라쏘회귀모델은 규제가 있는 선형회귀모델로 가중치 벡터의 절대값의 합인 L1노름을 적용한다. ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 7.