본문 바로가기

데이터 분석141

[데이터 사이언스 스쿨] 4.3 스케일링 ○ 회귀분석에서 조건수가 커지는 경우는 크게 두 가지가 있다. 변수들의 단위 차이로 인해 숫자의 스케일이 크게 달라지는 경우. 이 경우에는 스케일링(scaling)으로 해결한다. 다중 공선성 즉, 상관관계가 큰 독립 변수들이 있는 경우, 이 경우에는 변수 선택이나 PCA를 사용한 차원 축소 등으로 해결한다. - 출처 : [데이터 사이언스 스쿨] 4.스케일링 2021. 5. 10.
[데이터 사이언스 스쿨] 4.2 선형회귀분석 linear regression analysis의 기초 ○ 상수항 결합(bias augmentation) : 회귀분석모형 수식을 간단하게 만들기 위해 다음과 같이 상수항을 독립변수 데이터에 추가하는 것 ○ 최소자승법(OLS: Ordinary Least Squares) : 잔차제곱합(RSS: Residual Sum of Squares)를 최소화하는 가중치 벡터를 구하는 방법 ○ 직교 방정식(normal equation) : 그레디언트가 0벡터가 되는 관계를 나타내는 식 - 출처: [데이터 사이언스 스쿨] 4.2 선형회귀분석 linear regression analysis의 기초 2021. 5. 10.
[데이터 사이언스 스쿨] 4.1 회귀분석 regression analysis 예제 특정한 입력변수값을 사용하여 출력변수의 값을 계산하는 것을 예측(prediction)문제라고 한다. 예측문제 중에서 출력변수의 값이 연속값인 문제를 회귀(regression) 또는 회귀분석(regression analysis) 문제라고 한다. ○ 보스턴 집값 예측 이 플롯의 첫 행을 보면 종속변수인 집값(MEDV)과 방 개수(RM), 노후화 정도(AGE)와 어떤 관계를 가지는지 알 수 있다. 방 개수가 증가할 수록 집값은 증가하는 경향이 뚜렷하다. 노후화 정도와 집값은 관계가 없어 보인다. * 찰스강 유역 여부(CHAS)는 범주값이며 값이 1이면 0일 때 보다 집값의 평균이 더 높아지는 것도 볼 수 있다. ○ 당뇨병 진행도 예측 - 이 플롯을 보면, BMI지수와 평균혈압(bp)이 종속변수인 당뇨병 진행도.. 2021. 5. 9.
[데이터 사이언스 스쿨] ml2.1 데이터 전처리 기초 ○ missingno 패키지 : pandas 데이터프레임에서 결측(missing) 데이터를 찾는 기능을 제공 - 데이터프레임에 결측 데이터가 NaN(not a number) 값으로 저장되어 있어야 한다. - 주의할 점은 NaN값은 부동소수점 실수 자료형에만 있는 값이므로 정수 자료를 데이터프레임에 넣을 때는 Int64Dtype 자료형을 명시해주어야 하고 시간 자료형을 넣을 때도 parse_dates 인수로 날짜시간형 파싱을 해주어야 datetime64[ns] 자료형이 되어 결측 데이터가 NaT(not a time) 값으로 표시된다. ○ 결측 데이터 처리 결측된 데이터가 너무 많은 경우 해당 데이터 열 전체를 삭제할 수 있다. 결측된 데이터가 일부인 경우 가장 그럴듯한 값으로 대체할 수 있다. 이를 결측 .. 2021. 5. 6.