● 결정론적 데이터(deterministic data) : 생년월일처럼 언제 누가 얻더라도 항상 같은 값이 나오는 데이터
● 확률적 데이터(random data, probabilistic data, stochastic data) : 혈압처럼 정확히 예측할 수 없는 값이 나오는 데이터
● 분포(distribution) : 확률적 데이터에서 어떠한 값이 자주 나오고 어떠한 값이 드물게 나오는가를 나타내는 정보
- 범주형 데이터 : count plot을 사용하여 시각적으로 표현 할 수 있다.
- 실수형 데이터 : histogram을 사용하여 시각적으로 표현 할 수 있다.
● 기술통계
- 표본평균, 표본중앙값, 표본최빈값
- 표본분산, 표본표준편차
- 표본왜도, 표본첨도
- 표본평균(sample mean, sample average) : 표본평균은 데이터 분포의 대략적인 위치를 나타낸다.
- 표본중앙값(sample median) : 전체 자료를 크기별로 정렬했을 때 가장 중앙에 위치하는 값
- NN이 홀수이면 : 중앙값은 (N+1)/2번째 표본의 값
- NN이 짝수이면 : 중앙값은 N/2번째 표본의 값과 N/2+1째 표본의 값의 평균
- 표본최빈값(most frequent value, sample mode) : 데이터값 중 가장 빈번하게 나오는 값
● 분포의 모양에서 봉우리가 하나면 단봉(uni-modal)분포, 봉우리가 여럿이면 다봉(multi-modal)분포라고 한다.
● 분포의 모양에 따른 표본평균, 표본중앙값, 표본최빈값의 특성
- 분포가 표본평균을 기준으로 대칭인 대칭(symmetric)분포이면 표본중앙값은 표본평균과 같다.
- 분포가 대칭분포이면서 하나의 최고값만을 가지는 단봉분포이면 표본최빈값은 표본평균과 같다.
- 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균이 가장 크게 영향을 받고 표본최빈값이 가장 적게 영향을 받는다.
● 표준편차(sample standard deviation) 또는 표본분산(sample variance) : 데이터의 변동(variation) 정보를 알려주는 특징값 (평균이나 기댓값이 분포의 위치를 대표하는 것이라면 분산은 분포의 폭(width)을 대표하는 값이다. 표준편차는 분산에 대한 양의 제곱근(square root)값이다.
● 표본비대칭도(sample skewness) : 평균과의 거리의 세제곱을 이용하여 구한 특징값 (이 값이 0이면 분포가 대칭이다. 음수면 표본평균값을 기준으로 왼쪽에 있는 값을 가진 표본이 나올 가능성이 더 많다는 뜻이다.)
● 표본첨도(sample kurtosis) : 평균과의 거리의 네제곱을 이용하여 구한 특징값. 데이터가 중앙에 몰려있는 정도를 정밀하게 비교하는데 쓰인다.(정규분포보다 첨도가 높으면 양수, 정규분포보다 첨도가 낮으면 음수로 정의한다.)
● 표본모멘트(sample moment) : k제곱을 이용하여 구한 모멘트
● 확률변수(random variable)
확률변수는 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자로 바꾸어 출력하는 함수다. 출력되는 실수가 데이터의 값이다. 표본값을 굳이 실수로 바꾸는 이유는 표본이 실수가 아니면 확률분포함수를 정의할 수 없기 때문이다.
- 이산확률변수(discrete random variable) : 확률변수값이 연속적(continuous)이지 않고 떨어져(discrete) 있는 표본값을 가지는 확률변수
- 연속확률변수(continuous random variable) : 연속적이고 무한대의 실수 표본값을 가지는 확률변수
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] math 7.3 분산과 표준편차 (0) | 2021.05.04 |
---|---|
[데이터 사이언스 스쿨] math 7.2 기댓값과 확률변수의 변환 (0) | 2021.05.04 |
[데이터 사이언스 스쿨] math 6.6 베이즈 정리 (0) | 2021.05.03 |
[데이터 사이언스 스쿨] math 6.5 결합확률과 조건부확률 (0) | 2021.05.03 |
[데이터 사이언스 스쿨] math 6.4 확률분포함수 (0) | 2021.05.03 |