본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화

by manga0713 2021. 5. 11.

○ 기저함수(bias function) : 비선형 데이터의 예측률을 높이는 비선형 모형을 만들기 위해서는 데이터에 적합한 비선형 함수를 충분히 많이 생각해 낼 수 있어야 한다. 이러한 고충을 덜기 위해 만들어진 것이 기저함수(basis function) 모형이다. 기저함수는 특정한 규칙에 따라 만들어지는 함수의 열(sequence)로서 충분히 많은 수의 함수가 있으면 어떤 모양의 함수라도 비슷하게 흉내낼 수 있는 것을 말한다.

 

- 다항 기저함수(polynomial basis function)

- 직교기저함수(orthogonal basis function)

- 방사 기저함수

- 삼각 기저함수

- 시그모이드 기저함수

 

 

 

 

○ 과최적화(overfitting) : 모형을 특정 샘플 데이터에 대해 과도하게 최적화하는 것

 

  • 독립 변수 데이터 갯수에 비해 모형 모수의 수가 과도하게 크거나
  • 독립 변수 데이터가 서로 독립이 아닌 경우에 발생한다.

○ 과최적화가 문제가 되는 이유

 

  • 트레이닝에 사용되지 않은 새로운 독립 변수 값을 입력하면 오차가 커진다. (cross-validation 오차)
  • 샘플이 조금만 변화해도 가중치 계수의 값이 크게 달라진다. (추정의 부정확함)

 

 

dss_ml20_1_bias function and overfitting 기저함수 모형과 과최적화.ipynb
0.17MB

 

- 출처: [데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화