본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 6.5 정규화 선형회귀

by manga0713 2021. 5. 11.

정규화(regularized) 선형회귀 : 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법

 

- Ridge 회귀모형 : 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다.

- Lasso 회귀모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다.

- Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형

 

 

 

○ Ridge 모형과 Lasso 모형의 차이 : Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다.

 

 

○ 최적 정규화 : 정규화에 사용되는 하이퍼 모수(hyper parameter) 등을 바꾸면 모형의 검증 성능이 달라진다. 따라서 최적의 성능을 가져올 수 있는 정규화 하이퍼 모수를 선택하는 과정이 필요하다. 이러한 과정을 최적 정규화(optimal regularization)라고 한다.

 

 

○ 검증성능 곡선(validation curve) : 특정한 하나의 하이퍼 모수를 변화시켰을 때 학습 성능과 검증 성능의 변화를 나타낸 곡선

 

 

 

○ 다항회귀의 차수 결정 : 다항회귀에서 차수가 감소하면 모형의 제약조건이 더 강화되므로 정규화 가중치가 커지는 것과 같다. 반대로 차수가 증가하면 모형의 제약조건이 감소하므로 정규화 가중치가 작아지는 것과 같다. 따라서 다항회귀에서 최적의 차수를 결정하는 문제는 최적 정규화에 해당한다.

 

 

 

dss_ml23_1_regularized linear regression 정규화 선형회귀.ipynb
0.25MB

 

- 출처 : [데이터 사이언스 스쿨] 6.5 정규화 선형회귀