본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] math 9.4 검정과 유의확률

by manga0713 2021. 5. 5.

● 검정(testing) : 데이터 뒤에 숨어있는 확률변수의 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업

 

● 가설(hypothesis) : 확률분포에 대한 어떤 주장

 

● 귀무가설(null hypothesis) : 확률분포의 모수에 대한 가설

 

귀무가설은 확률분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 한다.

 

● 가설과 검정 : 데이터를 특정한 확률분포를 가진 확률변수로 모형화하면 모수를 추정할 수 있다. 다음 작업으로는 데이터 뒤에 숨어있는 확률변수가 정말로 그 모숫값을 가졌는지 검증해보아야 한다. 다른 말로 하면 해당 확률변수가 그 모숫값을 가졌다는 주장을 논리적으로 증명해야 한다.

 

● 대립가설(altenative hypothesis, 연구가설 research hypothesis) : 귀무가설은 등식을 사용하여 표현한 어떤 기준 상태일 뿐이고 우리가 주장하려는 혹은 반박하려는 가설이 아닐 수도 있다. 이때 귀무가설과 같이 고려하는 가설

 

● 검정통계량(test statistics) : 가설 증명의 증거에 해당하는 숫자. 표본 데이터 집합을 입력으로 계산되는 함수의 값

 

● 유의확률(p-value) : 어떤 표본 데이터가 해당 확률분포에서 나오기 쉬운 값인지 나오기 어려운 값인지를 정량화하는 방법

 

- 확률분포와 확률분포의 표본값 1개가 주어졌을 때 그 확률분포에서 해당 표본값 혹은 더 희귀한(rare) 값이 나올 수 있는 확률

 

- 확률밀도함수에서 표본값을 기준으로 만들어진 양측 꼬리(tail)부분에 해당하는 영역의 면적

 

- 귀무가설이 맞음에도 불구하고 현재 검정통계량값과 같은 혹은 대립가설을 더 옹호하는 검정통계량값이 나올 확률

 

 

 

● 단측검정(one-side test, single-tailed test) : 만약 증명하고자 하는 대립가설이 부등식인 경우에는 그 대립가설을 옹호하는 검정통계량값이 나올 확률을 구할 때 특정한 한 방향의 확률만을 구해야 한다. 이를 단측검정(one-side test, single-tailed test)이라고 한다.

 

- 모수 θ가 특정한 값보다 크다는 것을 증명하는 경우는 우측검정(right-side test) 유의확률을 사용

- 모수 θ가 특정한 값보다 작다는 것을 증명하는 경우는 좌측검정(left-tail test) 유의확률을 사용

 

● 유의수준과 기각역 : 유의확률값이 아주 작다는 것은 귀무가설이 맞다는 가정하에 현재의 검정통계량값이 나올 가능성이 매우 적다는 의미다. 따라서 유의확률값이 아주 작으면 귀무가설을 기각하고 대립가설을 채택할 수 있다.

 

- 반대로 유의확률이 유의수준보다 크면 귀무가설을 기각하지 못하고 채택한다.

 

● 유의수준(level of significance) : 계산된 유의확률값에 대해 귀무가설을 기각하는지 채택하는지를 결정할 수 있는 기준값

 

- 일반적으로 사용되는 유의수준은 1%, 5%, 10%

 

● 기각역(critical value) : 유의수준에 대해 계산된 검정통계량

 

- 기각역을 알고 있다면 유의확률을 유의수준과 비교하는 것이 아니라 검정통계량을 직접 기각역과 비교하여 기각 여부를 판단할 수도 있다.

 

 

 

dss_math9_4_testing 검정과 유의확률.ipynb
0.08MB

 

 

- 출처 : [데이터 사이언스 스쿨] math 9.4 검정과 유의확률