확률20 [데이터 사이언스 스쿨] math 9.4 검정과 유의확률 ● 검정(testing) : 데이터 뒤에 숨어있는 확률변수의 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업 ● 가설(hypothesis) : 확률분포에 대한 어떤 주장 ● 귀무가설(null hypothesis) : 확률분포의 모수에 대한 가설 귀무가설은 확률분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 한다. ● 가설과 검정 : 데이터를 특정한 확률분포를 가진 확률변수로 모형화하면 모수를 추정할 수 있다. 다음 작업으로는 데이터 뒤에 숨어있는 확률변수가 정말로 그 모숫값을 가졌는지 검증해보아야 한다. 다른 말로 하면 해당 확률변수가 그 모숫값을 가졌다는 주장을 논리적으로 증명해야 한다. ● 대립가설(altenative hypothesis, 연구가설 re.. 2021. 5. 5. [데이터 사이언스 스쿨] math 9.3 베이즈 추정법 ● 베이즈 추정법(bayesian estimation) : 모숫값이 가질 수 있는 모든 가능성의 분포를 계산하는 작업 베이즈 추정법을 사용하는 이유는 추정된 모숫값 숫자 하나만으로는 추정의 신뢰도와 신뢰구간을 구할 수 없기 때문 베이즈 추정법의 장점은 순차적(sequential) 계산이 가능하다는 점이다. 예를 들어 매 50개의 데이터를 수집하는 경우를 생각하자. 베이즈 추정법법을 사용하면 첫날 50개의 데이터로 모수를 추정한 뒤 다음날에는 추가적인 데이터 50개를 사용하여 모숫값을 더 정확하게 수정할 수 있다. - 출처 : [데이터 사이언스 스쿨] math 9.3 베이즈 추정법 2021. 5. 5. [데이터 사이언스 스쿨] math 9.2 최대가능도 추정법 ● 가능도함수(likeligood function) : 확률밀도함수에서 모수를 변수로 보는 경우에 이 함수를 가능도함수(likelihood function)라고 한다. 가능도함수를 수식으로 나타내면 수식 자체는 확률밀도함수의 수식과 같다. 하지만 가능도함수는 확률분포함수가 아니라는 점에 주의해야 한다. 확률밀도함수는 가능한 모든 표본값 x에 대해 적분하면 전체 면적이 1이 되지만, 가능도함수는 가능한 모든 모숫값 θ에 대해 적분했을 때 1이 된다는 보장이 없다. ● 최대가능도추정법(Maximum Likelihood Estimation, MLE) : 주어진 표본에 대해 가능도를 가장 크게 하는 모수 θ를 찾는 방법 위 그래프 범례에 나온 값을 바탕으로 가장 큰 가능도를 가진 확률분포를 선택해야 한다. - .. 2021. 5. 5. [데이터 사이언스 스쿨] math 8.7 베타분포, 감마분포, 디리클레분포 베타분포, 감마분포, 디리클레분포는 모숫값을 조정하여 분포의 모양을 우리가 원하는대로 쉽게 바꿀 수 있다. 모숫값은 분포 모양을 조절하는 조절값이라고 생각하면 된다. 이러한 특성때문에 이 분포들은 데이터가 이루는 분포를 표현하기보다는 베이지안 확률론의 관점에서 어떤 값에 대해 우리가 가지고 있는 확신 혹은 신뢰의 정도를 표현하는데 주로 사용된다. ● 디리클레분포(dirichlet distribution) 베타분포의 확장판이라고 할 수 있다. 베타분포는 0과 1사이의 값을 가지는 단일(univariate) 확률변수의 베이지안 모형에 사용되고 디리클레분포는 0과 1사이의 값을 가지는 다변수(multivariate) 확률변수의 베이지안 모형에 사용된다. - 출처 : [데이터 사이언스 스쿨] math 8.7 베.. 2021. 5. 4. 이전 1 2 3 4 5 다음