본문 바로가기

데이터 분석141

[데이터 사이언스 스쿨] 6.5 정규화 선형회귀 ○ 정규화(regularized) 선형회귀 : 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법 - Ridge 회귀모형 : 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다. - Lasso 회귀모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다. - Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형 ○ Ridge 모형과 Lasso 모형의 차이 : Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다. ○ 최적 정규화 : 정규화에 .. 2021. 5. 11.
[데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택 ○ 다중공선성(multicollinearity) : 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우이다. 독립 변수들이 서로 독립이 아니라 상호상관관계가 강한 경우에 발생한다. 이는 독립 변수의 공분산 행렬이 full rank 이어야 한다는 조건을 침해한다. ○ VIF(Variance Inflation Factor) : 다중 공선성을 없애는 가장 기본적인 방법은 다른 독립변수에 의존하는 변수를 없애는 것인데, 이 가장 의존적인 독립변수를 선택하는 방법으로 독립변수를 다른 독립변수로 선형회귀한 성능을 나타낸 것이다. - 출처 : [데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택 2021. 5. 11.
[데이터 사이언스 스쿨] 6.3 교차검증 cross validation ○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것 ○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것 ○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우 ○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다. 모형 추정 즉 학습을 위한 데이터 집합 (training data set) 성능 검증을 위한 데이터 집합 (test data set) ○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이.. 2021. 5. 11.
[데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화 ○ 기저함수(bias function) : 비선형 데이터의 예측률을 높이는 비선형 모형을 만들기 위해서는 데이터에 적합한 비선형 함수를 충분히 많이 생각해 낼 수 있어야 한다. 이러한 고충을 덜기 위해 만들어진 것이 기저함수(basis function) 모형이다. 기저함수는 특정한 규칙에 따라 만들어지는 함수의 열(sequence)로서 충분히 많은 수의 함수가 있으면 어떤 모양의 함수라도 비슷하게 흉내낼 수 있는 것을 말한다. - 다항 기저함수(polynomial basis function) - 직교기저함수(orthogonal basis function) - 방사 기저함수 - 삼각 기저함수 - 시그모이드 기저함수 ○ 과최적화(overfitting) : 모형을 특정 샘플 데이터에 대해 과도하게 최적화하는 .. 2021. 5. 11.