본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 6.3 교차검증 cross validation

by manga0713 2021. 5. 11.

표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것

 

○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것

 

○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우

 

○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다.

○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이터만을 사용하여 회귀분석 모형을 만들고 검증용 데이터로 성능을 계산하는 학습/검증 데이터 분리(train-test split) 방법을 사용한다.

 

 

 

○ K-폴드(K-Fold) 교차검증 : 데이터의 수가 적은 경우에는 이 데이터 중의 일부인 검증 데이터의 수도 적기 때문에 검증 성능의 신뢰도가 떨어진다. 그렇다고 검증 데이터의 수를 증가시키면 학습용 데이터의 수가 적어지므로 정상적인 학습이 되지 않는다. 이러한 딜레마를 해결하기 위한 검증 방법

 

 

dss_ml21_1_cross validation 교차검증.ipynb
0.01MB

 

- 출처 : [데이터 사이언스 스쿨] 6.3 교차검증 cross validation