회귀분석13 [데이터 사이언스 스쿨] 5.1 확률론적 선형 회귀모형 probabilistic model ○ 부트스트래핑(bootstrapping) : 회귀분석에 사용한 표본 데이터가 달라질 때 회귀분석의 결과는 어느 정도 영향을 받는지를 알기 위한 방법이다. - 기존의 데이터를 재표본화(re-sampling)하여 여러가지 다양한 표본 데이터 집합을 만드는 방법을 사용한다. 재표본화는 기존의 N개의 데이터에서 다시 N개의 데이터를 선택하되 중복 선택도 가능하게 한다(unordered resampling with replacement). ○ 위 summary는 확률론적 선형 회귀모형을 사용한 것이다. 확률론적 선형 회귀모형을 쓰면 부트스트래핑처럼 많은 계산을 하지 않아도 빠르고 안정적으로 가중치 추정값의 오차를 구할 수 있다. ○ 확률론적 선형 회귀모형에서는 데이터가 확률 변수로부터 생성된 표본이라고 가정한다.. 2021. 5. 10. [데이터 사이언스 스쿨] 4.5 부분회귀 partial regression ○ 부분회귀 플록(partial regression plot) : 독립변수의 갯수가 많을 때 특정한 하나의 독립변수의 영향력을 시각화하는 방법이 부분회귀 플롯(Partial Regression Plot)이다. Added Variable Plot이라고도 한다. ○ 만약 회귀분석을 한 후에 새로운 독립변수를 추가하여 다시 회귀분석을 할 때 종속변수에 영향을 미치는 모든 독립변수를 회귀모형에 포함하지 않는 한 모형의 가중치는 항상 편향된(biased) 값이 된다. ○ 또한 기존 가중치 벡터의 값이 달라진다. ○ CCPR(Component-Component plus Residual) 플롯 : 부분회귀 플롯과 마찬가지로 특정한 하나의 변수의 영향을 살펴보기 위한 것 - 출처 : [데이터 사이언스 스쿨] 4.5 부.. 2021. 5. 10. [데이터 사이언스 스쿨] 4.4 범주형 독립변수를 가지는 경우의 회귀분석 ○ 범주형 변수가 하나인 경우 - 풀랭크(full-rank) 방식에서는 더미변수의 값을 원핫인코딩(one-hot-encoding) 방식으로 지정 - 축소랭크(reduced-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다. ○ 풀랭크 ○ 축소랭크 ○ 두 개 이상의 범주형 변수가 있는 경우 - 축소형 방식을 사용한다. 이 때 주의할 점은 모든 범주형 범수의 가중치는 기준값 상수항에 더해지는 상수항으로 취급된다. ○ 범주형 독립변수와 실수 독립변수의 상호작용 - 만약 범주형 변수의 값이 달라질 때 상수항만 달라지는 것이 아니라 다른 독립변수들이 미치는 영향도 달라지는 모형을 원한다면 상호작용(intera.. 2021. 5. 10. [데이터 사이언스 스쿨] 4.3 스케일링 ○ 회귀분석에서 조건수가 커지는 경우는 크게 두 가지가 있다. 변수들의 단위 차이로 인해 숫자의 스케일이 크게 달라지는 경우. 이 경우에는 스케일링(scaling)으로 해결한다. 다중 공선성 즉, 상관관계가 큰 독립 변수들이 있는 경우, 이 경우에는 변수 선택이나 PCA를 사용한 차원 축소 등으로 해결한다. - 출처 : [데이터 사이언스 스쿨] 4.스케일링 2021. 5. 10. 이전 1 2 3 4 다음