본문 바로가기

Python409

[데이터 사이언스 스쿨] 5.3 분류모형 분류(classification)문제는 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값(클래스)을 예측하는 문제이다. 현실적인 문제로 바꾸어 말하면 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지를 알아내는 문제이기도 하다. ○ 분류모형의 종류 ① 확률적 모형 - 확률적 판별(discriminative) 모형 로지스틱 회귀 의사결정나무 - 확률적 생성(generative) 모형 LDA/QDA 나이브 베이지안 ② 판별함수(discriminative function) 모형 퍼셉트론 서포트벡터머신 인공신경망 - 출처 : [데이터 사이언스 스쿨] 5.3 분류모형 2021. 5. 12.
[데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 개별적인 데이터 표본 하나하나가 회귀분석 결과에 미치는 영향력은 레버리지 분석이나 아웃라이어 분석을 통해 알 수 있다. ○ 레버리지(leverage) : 실제 종속변수값이 예측치(predicted target)에 미치는 영향을 나타낸 값 ○ 아웃라이어(outlier) : 모형에서 설명하고 있는 데이터와 동떨어진 값을 가지는 데이터, 즉 잔차가 큰 데이터. 잔차의 크기는 독립 변수의 영향을 받으므로 아웃라이어를 찾으려면 이 영향을 제거한 표준화된 잔차를 계산해야 한다. - 출처 : [데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 2021. 5. 10.
[데이터 사이언스 스쿨] 5.1 확률론적 선형 회귀모형 probabilistic model ○ 부트스트래핑(bootstrapping) : 회귀분석에 사용한 표본 데이터가 달라질 때 회귀분석의 결과는 어느 정도 영향을 받는지를 알기 위한 방법이다. - 기존의 데이터를 재표본화(re-sampling)하여 여러가지 다양한 표본 데이터 집합을 만드는 방법을 사용한다. 재표본화는 기존의 N개의 데이터에서 다시 N개의 데이터를 선택하되 중복 선택도 가능하게 한다(unordered resampling with replacement). ○ 위 summary는 확률론적 선형 회귀모형을 사용한 것이다. 확률론적 선형 회귀모형을 쓰면 부트스트래핑처럼 많은 계산을 하지 않아도 빠르고 안정적으로 가중치 추정값의 오차를 구할 수 있다. ○ 확률론적 선형 회귀모형에서는 데이터가 확률 변수로부터 생성된 표본이라고 가정한다.. 2021. 5. 10.
[데이터 사이언스 스쿨] 4.5 부분회귀 partial regression ○ 부분회귀 플록(partial regression plot) : 독립변수의 갯수가 많을 때 특정한 하나의 독립변수의 영향력을 시각화하는 방법이 부분회귀 플롯(Partial Regression Plot)이다. Added Variable Plot이라고도 한다. ○ 만약 회귀분석을 한 후에 새로운 독립변수를 추가하여 다시 회귀분석을 할 때 종속변수에 영향을 미치는 모든 독립변수를 회귀모형에 포함하지 않는 한 모형의 가중치는 항상 편향된(biased) 값이 된다. ○ 또한 기존 가중치 벡터의 값이 달라진다. ○ CCPR(Component-Component plus Residual) 플롯 : 부분회귀 플롯과 마찬가지로 특정한 하나의 변수의 영향을 살펴보기 위한 것 - 출처 : [데이터 사이언스 스쿨] 4.5 부.. 2021. 5. 10.