○ 의사결정나무(decision tree)를 이용한 분류법은 다음과 같다.
- 여러가지 독립 변수 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값(threshold)을 정한다. 이를 분류 규칙이라고 한다.
- 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드 1)과 해당 독립 변수의 값이 기준값보다 큰 데이터 그룹(자식 노드 2)으로 나눈다.
- 각각의 자식 노드에 대해 1~2의 단계를 반복하여 하위의 자식 노드를 만든다. 단, 자식 노드에 한가지 클래스의 데이터만 존재한다면 더 이상 자식 노드를 나누지 않고 중지한다.
이렇게 자식 노드 나누기를 연속적으로 적용하면 노드가 계속 증가하는 나무(tree)와 같은 형태로 표현할 수 있다.
○ 분류규칙을 정하는 방법 : 부모 노드와 자식 노드 간의 엔트로피를 가장 낮게 만드는 최상의 독립 변수와 기준값을 찾는 것이다. 이러한 기준을 정량화한 것이 정보획득량(information gain)이다. 기본적으로 모든 독립 변수와 모든 가능한 기준값에 대해 정보획득량을 구하여 가장 정보획득량이 큰 독립 변수와 기준값을 선택한다.
- 출처 : [데이터 사이언스 스쿨] 8.1 의사결정나무
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] 부스팅 방법 (0) | 2021.05.13 |
---|---|
[데이터 사이언스 스쿨] 12.02 모형 결합 (0) | 2021.05.13 |
[데이터 사이언스 스쿨] 7.3 나이브베이즈 분류모형을 이용한 감성 분석 (0) | 2021.05.12 |
[데이터 사이언스 스쿨] 7.2 나이브베이즈 분류모형 (0) | 2021.05.12 |
[데이터 사이언스 스쿨] 7.1 선형판별분석법과 이차판별분석법 (0) | 2021.05.12 |