본문 바로가기

분포10

[데이터 사이언스 스쿨] math 10.4 상호정보량 ● 상호정보량(mutual information) : 결합확률밀도함수 p(x,y)와 주변확률밀도함수의 곱 p(x)p(y)의 쿨벡-라이블러 발산이다. 즉 결합확률밀도함수와 주변확률밀도함수의 차이를 측정하므로써 두 확률변수의 상관관계를 측정하는 방법이다. 만약 두 확률변수가 독립이면 결합확률밀도함수는 주변확률밀도함수의 곱과 같으므로 상호정보량은 0이 된다. 반대로 상관관계가 있다면 그만큼 양의 상호정보량을 가진다. ● 최대정보상관계수(maximal information coefficient, MIC) : 구간을 나누는 방법을 다양하게 시도한 다음에 그 결과로 구한 다양한 상호정보량 중에서 가장 큰 값을 선택하여 정규화한 것 - 출처 : [데이터 사이언스 스쿨] math 10.4 상호정보량 2021. 5. 5.
[데이터 사이언스 스쿨] math 10.2 조건부 엔트로피 ● 결합엔트로피(joint entropy) : 결합확률분포를 사용하여 정의한 엔트로피 ● 조건부엔트로피(conditional entropy) : 어떤 확률변수 XX가 다른 확률변수 YY의 값을 예측하는데 도움이 되는지를 측정하는 방법 중의 하나 - 예측에 도움이 되는 경우 - 예측에 도움이 되지 않는 경우 - 출처 : [데이터 사이언스 스쿨] math 10.2 조건부 엔트로피 2021. 5. 5.
[데이터 사이언스 스쿨] math 10.1 엔트로피 ● 엔트로피(Entropy) : 확률분포가 가지는 정보의 확신도 혹은 정보량을 수치로 표현한 것 - 확률분포에서 특정한 값이 나올 확률이 높아지고 나머지 값의 확률은 낮아진다면 엔트로피가 작아진다. 반대로 여러가지 값이 나올 확률이 대부분 비슷한 경우에는 엔트로피가 높아진다. - 확률 또는 확률밀도가 특정값에 몰려있으면 엔트로피가 작다고 하고 반대로 여러가지 값에 골고루 퍼져 있다면 엔트로피가 크다고 한다. ● 지니불순도(Gini impurity) : 엔트로피처럼 확률분포가 어느쪽에 치우쳐있는가를 재는 척도지만 로그를 사용하지 않으므로 계산량이 더 적어 엔트로피 대용으로 많이 사용된다. - 출처 : [데이터 사이언스 스쿨] math 10.1 엔트로피 2021. 5. 5.
[데이터 사이언스 스쿨] math 9.5 사이파이를 사용한 검정 ● SciPy를 사용한 검정 이항검정(Binomial Test) 카이제곱검정(Chi-squared Test) 카이제곱 독립검정(Chi-squared Contingency Test) 단일표본 z검정(One-sample z-Test) 단일표본 t검정(One-sample t-Test) 독립표본 t검정(Independent two-sample t-Test) 대응표본 t검정(Paired two-sample t-Test) 등분산검정(Equal-variance Test) 정규성검정(Normality Test) - 출처 : [데이터 사이언스 스쿨] math 9.5 사이파이를 사용한 검정 2021. 5. 5.