○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것
○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우
○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다.
○ K-폴드(K-Fold) 교차검증 : 데이터의 수가 적은 경우에는 이 데이터 중의 일부인 검증 데이터의 수도 적기 때문에 검증 성능의 신뢰도가 떨어진다. 그렇다고 검증 데이터의 수를 증가시키면 학습용 데이터의 수가 적어지므로 정상적인 학습이 되지 않는다. 이러한 딜레마를 해결하기 위한 검증 방법
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] 6.5 정규화 선형회귀 (0) | 2021.05.11 |
---|---|
[데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.1 모형 진단과 수정 (1) | 2021.05.10 |
[데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA (0) | 2021.05.10 |