○ 정규화(regularized) 선형회귀 : 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법
- Ridge 회귀모형 : 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다.
- Lasso 회귀모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다.
- Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형
○ Ridge 모형과 Lasso 모형의 차이 : Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다.
○ 최적 정규화 : 정규화에 사용되는 하이퍼 모수(hyper parameter) 등을 바꾸면 모형의 검증 성능이 달라진다. 따라서 최적의 성능을 가져올 수 있는 정규화 하이퍼 모수를 선택하는 과정이 필요하다. 이러한 과정을 최적 정규화(optimal regularization)라고 한다.
○ 검증성능 곡선(validation curve) : 특정한 하나의 하이퍼 모수를 변화시켰을 때 학습 성능과 검증 성능의 변화를 나타낸 곡선
○ 다항회귀의 차수 결정 : 다항회귀에서 차수가 감소하면 모형의 제약조건이 더 강화되므로 정규화 가중치가 커지는 것과 같다. 반대로 차수가 증가하면 모형의 제약조건이 감소하므로 정규화 가중치가 작아지는 것과 같다. 따라서 다항회귀에서 최적의 차수를 결정하는 문제는 최적 정규화에 해당한다.
- 출처 : [데이터 사이언스 스쿨] 6.5 정규화 선형회귀
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] 5.1 분류용 예제 데이터 (0) | 2021.05.11 |
---|---|
[데이터 사이언스 스쿨] 13.1 추천 시스템 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.3 교차검증 cross validation (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화 (0) | 2021.05.11 |