본문 바로가기

IT 와 Social 이야기/Python348

[데이터 사이언스 스쿨] 4.3 스케일링 ○ 회귀분석에서 조건수가 커지는 경우는 크게 두 가지가 있다. 변수들의 단위 차이로 인해 숫자의 스케일이 크게 달라지는 경우. 이 경우에는 스케일링(scaling)으로 해결한다. 다중 공선성 즉, 상관관계가 큰 독립 변수들이 있는 경우, 이 경우에는 변수 선택이나 PCA를 사용한 차원 축소 등으로 해결한다. - 출처 : [데이터 사이언스 스쿨] 4.스케일링 2021. 5. 10.
[데이터 사이언스 스쿨] 4.2 선형회귀분석 linear regression analysis의 기초 ○ 상수항 결합(bias augmentation) : 회귀분석모형 수식을 간단하게 만들기 위해 다음과 같이 상수항을 독립변수 데이터에 추가하는 것 ○ 최소자승법(OLS: Ordinary Least Squares) : 잔차제곱합(RSS: Residual Sum of Squares)를 최소화하는 가중치 벡터를 구하는 방법 ○ 직교 방정식(normal equation) : 그레디언트가 0벡터가 되는 관계를 나타내는 식 - 출처: [데이터 사이언스 스쿨] 4.2 선형회귀분석 linear regression analysis의 기초 2021. 5. 10.
[데이터 사이언스 스쿨] 4.1 회귀분석 regression analysis 예제 특정한 입력변수값을 사용하여 출력변수의 값을 계산하는 것을 예측(prediction)문제라고 한다. 예측문제 중에서 출력변수의 값이 연속값인 문제를 회귀(regression) 또는 회귀분석(regression analysis) 문제라고 한다. ○ 보스턴 집값 예측 이 플롯의 첫 행을 보면 종속변수인 집값(MEDV)과 방 개수(RM), 노후화 정도(AGE)와 어떤 관계를 가지는지 알 수 있다. 방 개수가 증가할 수록 집값은 증가하는 경향이 뚜렷하다. 노후화 정도와 집값은 관계가 없어 보인다. * 찰스강 유역 여부(CHAS)는 범주값이며 값이 1이면 0일 때 보다 집값의 평균이 더 높아지는 것도 볼 수 있다. ○ 당뇨병 진행도 예측 - 이 플롯을 보면, BMI지수와 평균혈압(bp)이 종속변수인 당뇨병 진행도.. 2021. 5. 9.
[데이터 사이언스 스쿨] ml10.1 지리 정보 데이터 처리 지리정보데이터, GIS(Geospatial Information System) 라고 말하는 것은 위치에 대한 정보를 광범위하게 포함하는 말이다. 예로는 좌표, 주소, 도시 , 우편번호 등이 있다. - 출처 : [데이터 사이언스 스쿨] ml10.1 지리 정보 데이터 처리 2021. 5. 8.