본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] ml2.2 범주형 데이터 처리

by manga0713 2021. 5. 6.

○ 범주형 데이터(category data) : 종류를 표시하는 데이터

 

○ 범주형 데이터의 변형 : 대부분의 데이터 분석 모형은 숫자만 입력으로 받을 수 있기 때문에 범주형 데이터는 숫자로 변환해야 한다.

 

○ 더미변수화 : 더미변수(dummy variable)는 0 또는 1만 가지는 값으로 어떤 특징이 존재하는가 존재하지 않는가를 표시한다. 다음과 같은 명칭으로 불린다.

 

  • 이진지시자(Boolean indicator)
  • 이진변수(binary variable)
  • 지시변수(indicator variable)
  • 설계변수(design variable)
  • 처치(treatment)

카테고리값을 더미변수화하면 복수의 더미변수 벡터로 표시한다.

 

 

 

 

○ 축소랭크 방식

 

지금까지 설명한 더미변수 방식을 풀랭크(full-rank) 방식이라고 한다. 이와 달리 축소랭크(reducec-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다.

 

 

 

 

○ 두 개의 범주형 변수가 있는 경우

 

  • 통합 축소형 방식 : 

통합 축소형 방식은 각각의 변수를 축소형으로 기준값을 더미변수화한다. 다만 기준값을 나타내는 더미변수는 변수의 갯수와 상관없이 하나로 통합한다.

 

  • 상호작용 방식

두 범주형 변수를 곱해서 각각의 변수의 조합을 나타내는 새로운 범주형 변수를 만드는 방식

 

 

 

dss_ml2_2_category data preprocessing 범주형 데이터 처리.ipynb
0.02MB

 

- 출처 : [데이터 사이언스 스쿨] ml2.2 범주형 데이터 처리