본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 4.4 범주형 독립변수를 가지는 경우의 회귀분석

by manga0713 2021. 5. 10.

○ 범주형 변수가 하나인 경우

 

- 풀랭크(full-rank) 방식에서는 더미변수의 값을 원핫인코딩(one-hot-encoding) 방식으로 지정

- 축소랭크(reduced-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다.

 

 

○ 풀랭크

 

○ 축소랭크

 

 

○ 두 개 이상의 범주형 변수가 있는 경우

 

- 축소형 방식을 사용한다. 이 때 주의할 점은 모든 범주형 범수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급된다.

 

○ 범주형 독립변수와 실수 독립변수의 상호작용

 

- 만약 범주형 변수의 값이 달라질 때 상수항만 달라지는 것이 아니라 다른 독립변수들이 미치는 영향도 달라지는 모형을 원한다면 상호작용(interaction)을 쓰면 된다.

 

 

dss_ml14_1_regression model for categorical data 범주형 데이터 회귀분석.ipynb
0.03MB

 

- 출처 : [데이터 사이언스 스쿨] 4.4 범주형 독립변수를 가지는 경우의 회귀분석