regression analysis3 [데이터 사이언스 스쿨] 4.4 범주형 독립변수를 가지는 경우의 회귀분석 ○ 범주형 변수가 하나인 경우 - 풀랭크(full-rank) 방식에서는 더미변수의 값을 원핫인코딩(one-hot-encoding) 방식으로 지정 - 축소랭크(reduced-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다. ○ 풀랭크 ○ 축소랭크 ○ 두 개 이상의 범주형 변수가 있는 경우 - 축소형 방식을 사용한다. 이 때 주의할 점은 모든 범주형 범수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급된다. ○ 범주형 독립변수와 실수 독립변수의 상호작용 - 만약 범주형 변수의 값이 달라질 때 상수항만 달라지는 것이 아니라 다른 독립변수들이 미치는 영향도 달라지는 모형을 원한다면 상호작용(intera.. 2021. 5. 10. [데이터 사이언스 스쿨] 4.3 스케일링 ○ 회귀분석에서 조건수가 커지는 경우는 크게 두 가지가 있다. 변수들의 단위 차이로 인해 숫자의 스케일이 크게 달라지는 경우. 이 경우에는 스케일링(scaling)으로 해결한다. 다중 공선성 즉, 상관관계가 큰 독립 변수들이 있는 경우, 이 경우에는 변수 선택이나 PCA를 사용한 차원 축소 등으로 해결한다. - 출처 : [데이터 사이언스 스쿨] 4.스케일링 2021. 5. 10. [데이터 사이언스 스쿨] 4.1 회귀분석 regression analysis 예제 특정한 입력변수값을 사용하여 출력변수의 값을 계산하는 것을 예측(prediction)문제라고 한다. 예측문제 중에서 출력변수의 값이 연속값인 문제를 회귀(regression) 또는 회귀분석(regression analysis) 문제라고 한다. ○ 보스턴 집값 예측 이 플롯의 첫 행을 보면 종속변수인 집값(MEDV)과 방 개수(RM), 노후화 정도(AGE)와 어떤 관계를 가지는지 알 수 있다. 방 개수가 증가할 수록 집값은 증가하는 경향이 뚜렷하다. 노후화 정도와 집값은 관계가 없어 보인다. * 찰스강 유역 여부(CHAS)는 범주값이며 값이 1이면 0일 때 보다 집값의 평균이 더 높아지는 것도 볼 수 있다. ○ 당뇨병 진행도 예측 - 이 플롯을 보면, BMI지수와 평균혈압(bp)이 종속변수인 당뇨병 진행도.. 2021. 5. 9. 이전 1 다음