본문 바로가기

데이터 분석141

[데이터 사이언스 스쿨] 6.1 모형 진단과 수정 ○ 진단(diagnosis) : 회귀분석에 사용된 데이터가 회귀분석에 사용된 모형 가정을 제대로 만족하고 있는지를 확인하는 과정 ○ 잔차 정규성 : 데이터가 모형 가정을 만족하면 분석결과로 나온 잔차는 정규분포를 따라야 한다. ○ 잔차와 독립 변수 : 데이터가 올바른 모형으로 분석되었다면 잔차는 더이상 독립 변수와 상관관계를 가지지 않아야 한다. ○ 이분산성 : 선형 회귀 모형에서는 종속 변수 값의 분산이 독립 변수의 값과 상관없이 고정된 값을 가져야한다. 그러나 실제 데이터는 독립 변수 값의 크기가 커지면 종속 변수 값의 분산도 커지는 이분산성(heteroskedastic) 문제가 발생한다. ○ 자기 상관 계수 : 선형 회귀 모형에서는 오차(disturbance)들이 서로 (모수-조건부) 독립이라고 가.. 2021. 5. 10.
[데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA ○ 분산 분석(ANOVA: Analysis of Variance)은 종속변수의 분산과 독립변수의 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법이다. - 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석하는데도 사용된다. ○ 결정계수(Coefficient of Determination) : 회귀분석의 성능을 나타내는 수치 - 출처: [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA 2021. 5. 10.
[데이터 사이언스 스쿨] 4.5 부분회귀 partial regression ○ 부분회귀 플록(partial regression plot) : 독립변수의 갯수가 많을 때 특정한 하나의 독립변수의 영향력을 시각화하는 방법이 부분회귀 플롯(Partial Regression Plot)이다. Added Variable Plot이라고도 한다. ○ 만약 회귀분석을 한 후에 새로운 독립변수를 추가하여 다시 회귀분석을 할 때 종속변수에 영향을 미치는 모든 독립변수를 회귀모형에 포함하지 않는 한 모형의 가중치는 항상 편향된(biased) 값이 된다. ○ 또한 기존 가중치 벡터의 값이 달라진다. ○ CCPR(Component-Component plus Residual) 플롯 : 부분회귀 플롯과 마찬가지로 특정한 하나의 변수의 영향을 살펴보기 위한 것 - 출처 : [데이터 사이언스 스쿨] 4.5 부.. 2021. 5. 10.
[데이터 사이언스 스쿨] 4.4 범주형 독립변수를 가지는 경우의 회귀분석 ○ 범주형 변수가 하나인 경우 - 풀랭크(full-rank) 방식에서는 더미변수의 값을 원핫인코딩(one-hot-encoding) 방식으로 지정 - 축소랭크(reduced-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다. ○ 풀랭크 ○ 축소랭크 ○ 두 개 이상의 범주형 변수가 있는 경우 - 축소형 방식을 사용한다. 이 때 주의할 점은 모든 범주형 범수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급된다. ○ 범주형 독립변수와 실수 독립변수의 상호작용 - 만약 범주형 변수의 값이 달라질 때 상수항만 달라지는 것이 아니라 다른 독립변수들이 미치는 영향도 달라지는 모형을 원한다면 상호작용(intera.. 2021. 5. 10.