본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 4.1 회귀분석 regression analysis 예제

by manga0713 2021. 5. 9.

특정한 입력변수값을 사용하여 출력변수의 값을 계산하는 것을 예측(prediction)문제라고 한다. 예측문제 중에서 출력변수의 값이 연속값인 문제를 회귀(regression) 또는 회귀분석(regression analysis) 문제라고 한다.

 

 

○ 보스턴 집값 예측

 

 

이 플롯의 첫 행을 보면 종속변수인 집값(MEDV)과 방 개수(RM), 노후화 정도(AGE)와 어떤 관계를 가지는지 알 수 있다.

 

  • 방 개수가 증가할 수록 집값은 증가하는 경향이 뚜렷하다.
  • 노후화 정도와 집값은 관계가 없어 보인다.

* 찰스강 유역 여부(CHAS)는 범주값이며 값이 1이면 0일 때 보다 집값의 평균이 더 높아지는 것도 볼 수 있다.

 

 

○ 당뇨병 진행도 예측

 

 

- 이 플롯을 보면, BMI지수와 평균혈압(bp)이 종속변수인 당뇨병 진행도와 양의 상관관계를 가지는 것을 볼 수 있다.

- 또한 두 독립변수 BMI지수와 평균혈압도 서로 양의 상관관계를 가진다.

 

--> 이렇게 독립변수끼리 상관관계를 가지는 것을 다중공선성(multicolinearity)이라고 한다. (분석 결과에 영향을 줌)

 

 

○ 가상 데이터 예측

 

 

dss_ml11_1_regression analysis examples 회귀분석 예제.ipynb
0.38MB

 

 

- 출처 : [데이터 사이언스 스쿨] 4.1 회귀분석 regression analysis 예제