주요 정리
1. 교차검증을 사용하면 모델을 훈련시킬 데이터를 빠뜨릴 수 있는 문제를 방지할 수 있다.
2. 검증곡선을 시각화하면 모델의 복잡도와 관련된 편향과 분산 사이의 트레이드오프에서 적절한 지점을 확인할 수 있다.
3. 학습곡선 플롯을 이용하면 훈련집합의 크기에 따른 훈련 점수와 검증 점수의 변화를 시각적으로 확인할 수 있다.
4. 그리드 서치 자동화 도구를 이용하면 검증 점수를 최대화하는 최적의 모델을 찾아 데이터에 적합시킬 수 있다.
5. 특징 공학을 통해 머신러닝의 특징 행렬을 구축하는데 필요한 범주형 데이터의 인코딩, 복잡도를 증가시키기 위한 유도 특징의 추가, 누락 데이터 대체 등의 작업을 수행하며, 파이프라인을 통해 작업의 생산성을 높일 수 있다.
★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/...
'IT 와 Social 이야기 > ML-DL' 카테고리의 다른 글
[K-ICT 빅데이터센터] Ch8. 와인 품질 데이터를 활용한 분석 모델링-선형회귀모델, 규제선형회귀모델-임정환교수 (1) | 2021.04.07 |
---|---|
[K-ICT 빅데이터센터] Ch7. 와인 품질 데이터를 활용한 분석 모델링-임정환교수 (0) | 2021.04.06 |
[친절한 AI] 머신러닝, 데이터 준비 방법 - 데이터 제공 사이트, 전처리 방법 (0) | 2021.04.02 |
[K-ICT 빅데이터센터] Ch5. 파이썬 Scikit-Learn 소개 및 활용-임정환교수 (0) | 2021.04.01 |
[K-ICT 빅데이터센터] Ch4. 머신러닝과 통계학-임정환교수 (0) | 2021.03.31 |