본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] math 7.1 확률적 데이터와 확률변수

by manga0713 2021. 5. 4.

[ 이미지 출처 : 필로홍의 데이터 노트 - 확률 변수와 확률 함수 ]

 

 

● 결정론적 데이터(deterministic data) : 생년월일처럼 언제 누가 얻더라도 항상 같은 값이 나오는 데이터

 

● 확률적 데이터(random data, probabilistic data, stochastic data) : 혈압처럼 정확히 예측할 수 없는 값이 나오는 데이터

 

● 분포(distribution) : 확률적 데이터에서 어떠한 값이 자주 나오고 어떠한 값이 드물게 나오는가를 나타내는 정보

 

- 범주형 데이터 : count plot을 사용하여 시각적으로 표현 할 수 있다.

- 실수형 데이터 : histogram을 사용하여 시각적으로 표현 할 수 있다.

 

 

● 기술통계

  • 표본평균, 표본중앙값, 표본최빈값
  • 표본분산, 표본표준편차
  • 표본왜도, 표본첨도

- 표본평균(sample mean, sample average) : 표본평균은 데이터 분포의 대략적인 위치를 나타낸다.

- 표본중앙값(sample median) : 전체 자료를 크기별로 정렬했을 때 가장 중앙에 위치하는 값

  • NN이 홀수이면 : 중앙값은 (N+1)/2번째 표본의 값
  • NN이 짝수이면 : 중앙값은 N/2번째 표본의 값과 N/2+1째 표본의 값의 평균

- 표본최빈값(most frequent value, sample mode) : 데이터값 중 가장 빈번하게 나오는 값

 

 

● 분포의 모양에서 봉우리가 하나면 단봉(uni-modal)분포, 봉우리가 여럿이면 다봉(multi-modal)분포라고 한다.

 

● 분포의 모양에 따른 표본평균, 표본중앙값, 표본최빈값의 특성

 

  • 분포가 표본평균을 기준으로 대칭인 대칭(symmetric)분포이면 표본중앙값은 표본평균과 같다.
  • 분포가 대칭분포이면서 하나의 최고값만을 가지는 단봉분포이면 표본최빈값은 표본평균과 같다.
  • 대칭분포를 비대칭으로 만드는 데이터가 더해지면 표본평균이 가장 크게 영향을 받고 표본최빈값이 가장 적게 영향을 받는다.

 

● 표준편차(sample standard deviation) 또는 표본분산(sample variance) : 데이터의 변동(variation) 정보를 알려주는 특징값 (평균이나 기댓값이 분포의 위치를 대표하는 것이라면 분산은 분포의 폭(width)을 대표하는 값이다. 표준편차는 분산에 대한 양의 제곱근(square root)값이다.

 

 

● 표본비대칭도(sample skewness) : 평균과의 거리의 세제곱을 이용하여 구한 특징값 (이 값이 0이면 분포가 대칭이다. 음수면 표본평균값을 기준으로 왼쪽에 있는 값을 가진 표본이 나올 가능성이 더 많다는 뜻이다.)

 

● 표본첨도(sample kurtosis) : 평균과의 거리의 네제곱을 이용하여 구한 특징값. 데이터가 중앙에 몰려있는 정도를 정밀하게 비교하는데 쓰인다.(정규분포보다 첨도가 높으면 양수, 정규분포보다 첨도가 낮으면 음수로 정의한다.)

 

 

● 표본모멘트(sample moment) : k제곱을 이용하여 구한 모멘트

 

 

● 확률변수(random variable)

 

확률변수는 수학적으로 확률공간의 표본을 입력으로 받아서 실수인 숫자로 바꾸어 출력하는 함수다. 출력되는 실수가 데이터의 값이다. 표본값을 굳이 실수로 바꾸는 이유는 표본이 실수가 아니면 확률분포함수를 정의할 수 없기 때문이다.

 

- 이산확률변수(discrete random variable) : 확률변수값이 연속적(continuous)이지 않고 떨어져(discrete) 있는 표본값을 가지는 확률변수

 

- 연속확률변수(continuous random variable) : 연속적이고 무한대의 실수 표본값을 가지는 확률변수

 

dss_math7_1_random variable 확률변수.ipynb
0.04MB

 

 

- 출처 : [데이터 사이언스 스쿨] math 7.1 확률적 데이터와 확률변수