● 검정(testing) : 데이터 뒤에 숨어있는 확률변수의 분포에 대한 가설이 맞는지 틀리는지 정량적으로 증명하는 작업
● 가설(hypothesis) : 확률분포에 대한 어떤 주장
● 귀무가설(null hypothesis) : 확률분포의 모수에 대한 가설
귀무가설은 확률분포를 특정한 상태로 고정시켜야 하므로 반드시 등식(equality)으로 표현되어야 한다.
● 대립가설(altenative hypothesis, 연구가설 research hypothesis) : 귀무가설은 등식을 사용하여 표현한 어떤 기준 상태일 뿐이고 우리가 주장하려는 혹은 반박하려는 가설이 아닐 수도 있다. 이때 귀무가설과 같이 고려하는 가설
● 검정통계량(test statistics) : 가설 증명의 증거에 해당하는 숫자. 표본 데이터 집합을 입력으로 계산되는 함수의 값
● 유의확률(p-value) : 어떤 표본 데이터가 해당 확률분포에서 나오기 쉬운 값인지 나오기 어려운 값인지를 정량화하는 방법
- 확률분포와 확률분포의 표본값 1개가 주어졌을 때 그 확률분포에서 해당 표본값 혹은 더 희귀한(rare) 값이 나올 수 있는 확률
- 확률밀도함수에서 표본값을 기준으로 만들어진 양측 꼬리(tail)부분에 해당하는 영역의 면적
- 귀무가설이 맞음에도 불구하고 현재 검정통계량값과 같은 혹은 대립가설을 더 옹호하는 검정통계량값이 나올 확률
● 단측검정(one-side test, single-tailed test) : 만약 증명하고자 하는 대립가설이 부등식인 경우에는 그 대립가설을 옹호하는 검정통계량값이 나올 확률을 구할 때 특정한 한 방향의 확률만을 구해야 한다. 이를 단측검정(one-side test, single-tailed test)이라고 한다.
- 모수 θ가 특정한 값보다 크다는 것을 증명하는 경우는 우측검정(right-side test) 유의확률을 사용
- 모수 θ가 특정한 값보다 작다는 것을 증명하는 경우는 좌측검정(left-tail test) 유의확률을 사용
● 유의수준과 기각역 : 유의확률값이 아주 작다는 것은 귀무가설이 맞다는 가정하에 현재의 검정통계량값이 나올 가능성이 매우 적다는 의미다. 따라서 유의확률값이 아주 작으면 귀무가설을 기각하고 대립가설을 채택할 수 있다.
- 반대로 유의확률이 유의수준보다 크면 귀무가설을 기각하지 못하고 채택한다.
● 유의수준(level of significance) : 계산된 유의확률값에 대해 귀무가설을 기각하는지 채택하는지를 결정할 수 있는 기준값
- 일반적으로 사용되는 유의수준은 1%, 5%, 10%
● 기각역(critical value) : 유의수준에 대해 계산된 검정통계량
- 기각역을 알고 있다면 유의확률을 유의수준과 비교하는 것이 아니라 검정통계량을 직접 기각역과 비교하여 기각 여부를 판단할 수도 있다.
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] math 10.1 엔트로피 (0) | 2021.05.05 |
---|---|
[데이터 사이언스 스쿨] math 9.5 사이파이를 사용한 검정 (0) | 2021.05.05 |
[데이터 사이언스 스쿨] math 9.3 베이즈 추정법 (0) | 2021.05.05 |
[데이터 사이언스 스쿨] math 9.2 최대가능도 추정법 (0) | 2021.05.05 |
[데이터 사이언스 스쿨] math 9.1 확률분포의 추정 (0) | 2021.05.05 |