본문 바로가기

IT 와 Social 이야기/Python348

[데이터 사이언스 스쿨] math 8.6 다변수정규분포 ● 다변수정규분포(MVN: multivariate Gaussian normal distribution) 다변수정규분포에서 공분산행렬은 양의 정부호인 대칭행렬이어야 한다. 따라서 역행렬이 항상 존재한다. 공분산행렬의 역행렬을 정밀도행렬(precision matrix)이라고 한다. ● 다변수정규분포와 고윳값 분해 - 출처 : [데이터 사이언스 스쿨] math 8.6 다변수정규분포 2021. 5. 4.
[데이터 사이언스 스쿨] math 8.5 스튜던트 t분포, 카이제곱분포, F분포 ● 스튜던트 t분포 : 팻 테일을 보이는 데이터 모형에 적합한 것 ● t 통계량 : 정규분포로부터 얻은 N개의 표본 x1,⋯,xN에서 계산한 표본평균을 표본표준편차로 정규화한 값 ● 카이제곱분포(chi-squared) : NN개의 표본들을 단순히 더하는 것이 아니라 제곱을 하여 더하면 양수값만을 가지는 분포가 된다. 이 분포를 말한다. ● F분포 - 출처 : [데이터 사이언스 스쿨] math 8.5 스튜던트 t분포, 카이제곱분포, F분포 2021. 5. 4.
[데이터 사이언스 스쿨] math 8.4 정규분포와 중심극한정리 ● 표준정규분포(standard normal distribution) : 정규분포 중에서도 평균이 0이고 분산이 1인 정규분포 정규분포의 확률밀도함수는 다음과 같은 성질을 가진다. (μ : 평균) x=μ일 때 확률밀도가 최대가 된다. x=∞로 다가가거나 x=−∞로 다가갈수록 확률밀도가 작아진다. ● 로그정규분포(log-normal distribution) : 데이터에 로그를 한 값 또는 변화율(수익률)이 정규분포가 되는 분포를 말한다. 로그정규분포를 띄는 데이터는 항상 양수다. 따라서 로그변환한 다음 사용하는 것이 일반적이다. ● Q-Q(Quantile-Quantile) 플롯 : 분석할 표본 데이터의 분포와 정규분포의 분포 형태를 비교하여 표본 데이터가 정규분포를 따르는지 검사하는 간단한 시각적 도구 ●.. 2021. 5. 4.
[데이터 사이언스 스쿨] math 8.3 카테고리분포와 다항분포 ● 카테고리 확률변수(Categorical random variable)는 1부터 K까지 K개 정숫값 중 하나가 나온다. 이 정숫값을 범주값, 카테고리(category) 혹은 클래스(class)라고 한다. 주사위를 던져 나오는 눈금 수는 K=6인 카테고리분포다. 주의할 점은 원래 카테고리는 스칼라값이지만 카테고리 확률변수는 1과 0으로만 이루어진 다차원 벡터를 출력한다. 숫자를 이렇게 변형하는 것을 원핫인코딩(One-Hot-Encoding)이라고 한다. ● 다중 분류문제(multi-class classification) - 출처 : [데이터 사이언스 스쿨] math 8.3 카테고리분포와 다항분포 2021. 5. 4.