본문 바로가기

교차검증2

[데이터 사이언스 스쿨] 6.3 교차검증 cross validation ○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것 ○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것 ○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우 ○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다. 모형 추정 즉 학습을 위한 데이터 집합 (training data set) 성능 검증을 위한 데이터 집합 (test data set) ○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이.. 2021. 5. 11.
[K-ICT 빅데이터센터] Ch6. 파이썬 교차검증, 특징공학-임정환교수 주요 정리 1. 교차검증을 사용하면 모델을 훈련시킬 데이터를 빠뜨릴 수 있는 문제를 방지할 수 있다. 2. 검증곡선을 시각화하면 모델의 복잡도와 관련된 편향과 분산 사이의 트레이드오프에서 적절한 지점을 확인할 수 있다. 3. 학습곡선 플롯을 이용하면 훈련집합의 크기에 따른 훈련 점수와 검증 점수의 변화를 시각적으로 확인할 수 있다. 4. 그리드 서치 자동화 도구를 이용하면 검증 점수를 최대화하는 최적의 모델을 찾아 데이터에 적합시킬 수 있다. 5. 특징 공학을 통해 머신러닝의 특징 행렬을 구축하는데 필요한 범주형 데이터의 인코딩, 복잡도를 증가시키기 위한 유도 특징의 추가, 누락 데이터 대체 등의 작업을 수행하며, 파이프라인을 통해 작업의 생산성을 높일 수 있다. ★ 강의자료, 소스코드 다운받기 : ht.. 2021. 4. 5.