본문 바로가기

확률20

[데이터 사이언스 스쿨] math 8.6 다변수정규분포 ● 다변수정규분포(MVN: multivariate Gaussian normal distribution) 다변수정규분포에서 공분산행렬은 양의 정부호인 대칭행렬이어야 한다. 따라서 역행렬이 항상 존재한다. 공분산행렬의 역행렬을 정밀도행렬(precision matrix)이라고 한다. ● 다변수정규분포와 고윳값 분해 - 출처 : [데이터 사이언스 스쿨] math 8.6 다변수정규분포 2021. 5. 4.
[데이터 사이언스 스쿨] math 8.5 스튜던트 t분포, 카이제곱분포, F분포 ● 스튜던트 t분포 : 팻 테일을 보이는 데이터 모형에 적합한 것 ● t 통계량 : 정규분포로부터 얻은 N개의 표본 x1,⋯,xN에서 계산한 표본평균을 표본표준편차로 정규화한 값 ● 카이제곱분포(chi-squared) : NN개의 표본들을 단순히 더하는 것이 아니라 제곱을 하여 더하면 양수값만을 가지는 분포가 된다. 이 분포를 말한다. ● F분포 - 출처 : [데이터 사이언스 스쿨] math 8.5 스튜던트 t분포, 카이제곱분포, F분포 2021. 5. 4.
[데이터 사이언스 스쿨] math 8.4 정규분포와 중심극한정리 ● 표준정규분포(standard normal distribution) : 정규분포 중에서도 평균이 0이고 분산이 1인 정규분포 정규분포의 확률밀도함수는 다음과 같은 성질을 가진다. (μ : 평균) x=μ일 때 확률밀도가 최대가 된다. x=∞로 다가가거나 x=−∞로 다가갈수록 확률밀도가 작아진다. ● 로그정규분포(log-normal distribution) : 데이터에 로그를 한 값 또는 변화율(수익률)이 정규분포가 되는 분포를 말한다. 로그정규분포를 띄는 데이터는 항상 양수다. 따라서 로그변환한 다음 사용하는 것이 일반적이다. ● Q-Q(Quantile-Quantile) 플롯 : 분석할 표본 데이터의 분포와 정규분포의 분포 형태를 비교하여 표본 데이터가 정규분포를 따르는지 검사하는 간단한 시각적 도구 ●.. 2021. 5. 4.
[데이터 사이언스 스쿨] math 7.5 공분산과 상관계수 ● 표본공분산(sample covariance) : 자료가 평균값으로부터 얼마나 떨어져 있는지를 나타낸 것이다. 공분산은 평균값 위치와 표본 위치를 연결하는 사각형의 면적을 사용한다. 데이터가 1사분면이나 3사분면에 있는 경우에는 양수가 되고 데이터가 2사분면이나 4사분면에 있는 경우에는 음수가 된다. ● 표본상관계수(sample correlation coefficient) : 다른 종류의 상관계수와 비교하여 말하는 경우에는 피어슨(Pearson) 상관계수라고 하기도 한다. ● 비선형상관관계 : 선형이 아닌 상관관계를 비선형 상관관계라고 한다. 피어슨 상관계수는 두 확률변수의 관계가 선형적일 때만 상관관계를 제대로 계산할 수 있다. - 출처 : [데이터 사이언스 스쿨] math 7.5 공분산과 상관계수 2021. 5. 4.