본문 바로가기

Python409

[데이터 사이언스 스쿨] ml2.1 데이터 전처리 기초 ○ missingno 패키지 : pandas 데이터프레임에서 결측(missing) 데이터를 찾는 기능을 제공 - 데이터프레임에 결측 데이터가 NaN(not a number) 값으로 저장되어 있어야 한다. - 주의할 점은 NaN값은 부동소수점 실수 자료형에만 있는 값이므로 정수 자료를 데이터프레임에 넣을 때는 Int64Dtype 자료형을 명시해주어야 하고 시간 자료형을 넣을 때도 parse_dates 인수로 날짜시간형 파싱을 해주어야 datetime64[ns] 자료형이 되어 결측 데이터가 NaT(not a time) 값으로 표시된다. ○ 결측 데이터 처리 결측된 데이터가 너무 많은 경우 해당 데이터 열 전체를 삭제할 수 있다. 결측된 데이터가 일부인 경우 가장 그럴듯한 값으로 대체할 수 있다. 이를 결측 .. 2021. 5. 6.
[데이터 사이언스 스쿨] ml1.1 데이터 분석의 소개 ● 예측(prediction) : 예측이란 숫자, 문서, 이미지, 음성, 영상 등의 여러 가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력하는 분석 방법이다. - 데이터 분석에서 말하는 예측이라는 용어는 시간상으로 미래의 의미는 포함하지 않는다. 시계열 분석에서는 시간상으로 미래의 데이터를 예측하는 경우가 있는데 이 때는 미래예측(forecasting) 이라는 용어를 사용한다. ● 입력 데이터(input data) : 분석의 기반이 되는 데이터로 보통 알파벳 X로 표기한다. - 독립변수(independent variable), 특징(feature), 설명변수(explanatory variable) 등의 용어로 쓰기도 한다. ● 출력 데이터(output data) : 추정하거나 예측하고자.. 2021. 5. 5.
[데이터 사이언스 스쿨] math 9.5 사이파이를 사용한 검정 ● SciPy를 사용한 검정 이항검정(Binomial Test) 카이제곱검정(Chi-squared Test) 카이제곱 독립검정(Chi-squared Contingency Test) 단일표본 z검정(One-sample z-Test) 단일표본 t검정(One-sample t-Test) 독립표본 t검정(Independent two-sample t-Test) 대응표본 t검정(Paired two-sample t-Test) 등분산검정(Equal-variance Test) 정규성검정(Normality Test) - 출처 : [데이터 사이언스 스쿨] math 9.5 사이파이를 사용한 검정 2021. 5. 5.
[데이터 사이언스 스쿨] math 8.7 베타분포, 감마분포, 디리클레분포 베타분포, 감마분포, 디리클레분포는 모숫값을 조정하여 분포의 모양을 우리가 원하는대로 쉽게 바꿀 수 있다. 모숫값은 분포 모양을 조절하는 조절값이라고 생각하면 된다. 이러한 특성때문에 이 분포들은 데이터가 이루는 분포를 표현하기보다는 베이지안 확률론의 관점에서 어떤 값에 대해 우리가 가지고 있는 확신 혹은 신뢰의 정도를 표현하는데 주로 사용된다. ● 디리클레분포(dirichlet distribution) 베타분포의 확장판이라고 할 수 있다. 베타분포는 0과 1사이의 값을 가지는 단일(univariate) 확률변수의 베이지안 모형에 사용되고 디리클레분포는 0과 1사이의 값을 가지는 다변수(multivariate) 확률변수의 베이지안 모형에 사용된다. - 출처 : [데이터 사이언스 스쿨] math 8.7 베.. 2021. 5. 4.