파이썬406 [데이터 사이언스 스쿨] 6.1 모형 진단과 수정 ○ 진단(diagnosis) : 회귀분석에 사용된 데이터가 회귀분석에 사용된 모형 가정을 제대로 만족하고 있는지를 확인하는 과정 ○ 잔차 정규성 : 데이터가 모형 가정을 만족하면 분석결과로 나온 잔차는 정규분포를 따라야 한다. ○ 잔차와 독립 변수 : 데이터가 올바른 모형으로 분석되었다면 잔차는 더이상 독립 변수와 상관관계를 가지지 않아야 한다. ○ 이분산성 : 선형 회귀 모형에서는 종속 변수 값의 분산이 독립 변수의 값과 상관없이 고정된 값을 가져야한다. 그러나 실제 데이터는 독립 변수 값의 크기가 커지면 종속 변수 값의 분산도 커지는 이분산성(heteroskedastic) 문제가 발생한다. ○ 자기 상관 계수 : 선형 회귀 모형에서는 오차(disturbance)들이 서로 (모수-조건부) 독립이라고 가.. 2021. 5. 10. [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA ○ 분산 분석(ANOVA: Analysis of Variance)은 종속변수의 분산과 독립변수의 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법이다. - 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석하는데도 사용된다. ○ 결정계수(Coefficient of Determination) : 회귀분석의 성능을 나타내는 수치 - 출처: [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA 2021. 5. 10. [데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 개별적인 데이터 표본 하나하나가 회귀분석 결과에 미치는 영향력은 레버리지 분석이나 아웃라이어 분석을 통해 알 수 있다. ○ 레버리지(leverage) : 실제 종속변수값이 예측치(predicted target)에 미치는 영향을 나타낸 값 ○ 아웃라이어(outlier) : 모형에서 설명하고 있는 데이터와 동떨어진 값을 가지는 데이터, 즉 잔차가 큰 데이터. 잔차의 크기는 독립 변수의 영향을 받으므로 아웃라이어를 찾으려면 이 영향을 제거한 표준화된 잔차를 계산해야 한다. - 출처 : [데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 2021. 5. 10. [데이터 사이언스 스쿨] 5.1 확률론적 선형 회귀모형 probabilistic model ○ 부트스트래핑(bootstrapping) : 회귀분석에 사용한 표본 데이터가 달라질 때 회귀분석의 결과는 어느 정도 영향을 받는지를 알기 위한 방법이다. - 기존의 데이터를 재표본화(re-sampling)하여 여러가지 다양한 표본 데이터 집합을 만드는 방법을 사용한다. 재표본화는 기존의 N개의 데이터에서 다시 N개의 데이터를 선택하되 중복 선택도 가능하게 한다(unordered resampling with replacement). ○ 위 summary는 확률론적 선형 회귀모형을 사용한 것이다. 확률론적 선형 회귀모형을 쓰면 부트스트래핑처럼 많은 계산을 하지 않아도 빠르고 안정적으로 가중치 추정값의 오차를 구할 수 있다. ○ 확률론적 선형 회귀모형에서는 데이터가 확률 변수로부터 생성된 표본이라고 가정한다.. 2021. 5. 10. 이전 1 ··· 31 32 33 34 35 36 37 ··· 102 다음