본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택

by manga0713 2021. 5. 11.

다중공선성(multicollinearity) : 독립 변수의 일부가 다른 독립 변수의 조합으로 표현될 수 있는 경우이다. 독립 변수들이 서로 독립이 아니라 상호상관관계가 강한 경우에 발생한다. 이는 독립 변수의 공분산 행렬이 full rank 이어야 한다는 조건을 침해한다.

 

○ VIF(Variance Inflation Factor) : 다중 공선성을 없애는 가장 기본적인 방법은 다른 독립변수에 의존하는 변수를 없애는 것인데, 이 가장 의존적인 독립변수를 선택하는 방법으로 독립변수를 다른 독립변수로 선형회귀한 성능을 나타낸 것이다.

 

 

 

dss_ml22_1_multicollinearity 다중공선성과 변수 선택.ipynb
0.23MB

 

- 출처 : [데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택