○ 범주형 데이터(category data) : 종류를 표시하는 데이터
○ 범주형 데이터의 변형 : 대부분의 데이터 분석 모형은 숫자만 입력으로 받을 수 있기 때문에 범주형 데이터는 숫자로 변환해야 한다.
○ 더미변수화 : 더미변수(dummy variable)는 0 또는 1만 가지는 값으로 어떤 특징이 존재하는가 존재하지 않는가를 표시한다. 다음과 같은 명칭으로 불린다.
- 이진지시자(Boolean indicator)
- 이진변수(binary variable)
- 지시변수(indicator variable)
- 설계변수(design variable)
- 처치(treatment)
○ 카테고리값을 더미변수화하면 복수의 더미변수 벡터로 표시한다.
○ 축소랭크 방식
지금까지 설명한 더미변수 방식을 풀랭크(full-rank) 방식이라고 한다. 이와 달리 축소랭크(reducec-rank) 방식에서는 특정한 하나의 범주값을 기준값(reference, baseline)으로 하고 기준값에 대응하는 더미변수의 가중치는 항상 1으로 놓는다.
○ 두 개의 범주형 변수가 있는 경우
- 통합 축소형 방식 :
통합 축소형 방식은 각각의 변수를 축소형으로 기준값을 더미변수화한다. 다만 기준값을 나타내는 더미변수는 변수의 갯수와 상관없이 하나로 통합한다.
- 상호작용 방식
두 범주형 변수를 곱해서 각각의 변수의 조합을 나타내는 새로운 범주형 변수를 만드는 방식
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] ml4.1 KoNLPy 한국어 처리 패키지 (0) | 2021.05.06 |
---|---|
[데이터 사이언스 스쿨] ml3.1 NLTK 자연어 처리 패키지 (0) | 2021.05.06 |
[데이터 사이언스 스쿨] ml2.1 데이터 전처리 기초 (0) | 2021.05.06 |
[데이터 사이언스 스쿨] ml1.1 데이터 분석의 소개 (0) | 2021.05.05 |
[데이터 사이언스 스쿨] math 10.4 상호정보량 (0) | 2021.05.05 |