본문 바로가기

파이썬406

[데이터 사이언스 스쿨] 8.1 의사결정나무 ○ 의사결정나무(decision tree)를 이용한 분류법은 다음과 같다. 여러가지 독립 변수 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값(threshold)을 정한다. 이를 분류 규칙이라고 한다. 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드 1)과 해당 독립 변수의 값이 기준값보다 큰 데이터 그룹(자식 노드 2)으로 나눈다. 각각의 자식 노드에 대해 1~2의 단계를 반복하여 하위의 자식 노드를 만든다. 단, 자식 노드에 한가지 클래스의 데이터만 존재한다면 더 이상 자식 노드를 나누지 않고 중지한다. 이렇게 자식 노드 나누기를 연속적으로 적용하면 노드가 계속 증가하는 나무(tree)와 같은 형태로 표현할 수 있다. ○ 분류규칙을 정하.. 2021. 5. 13.
[데이터 사이언스 스쿨] 7.3 나이브베이즈 분류모형을 이용한 감성 분석 샘플 데이터로는 github에 올려져 있는 네이버 영화 감상평에 대한 감성 분석 예제를 이용한다. https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt - 출처 : [데이터 사이언스 스쿨] 7.3 나이브베이즈 분류모형을 이용한 감성 분석 2021. 5. 12.
[데이터 사이언스 스쿨] 7.2 나이브베이즈 분류모형 나이즈베이즈 분류모형(Naive Bayes classification model)에서는 모든 차원의 개별 독립변수가 서로 조건부독립(conditional independent)이라는 가정을 사용한다. 이러한 가정을 나이브 가정(naive assumption)이라고 한다. 조건부독립(conditional independence)은 일반적인 독립과 달리 조건이 되는 별개의 확률변수 C가 존재해야 한다. 조건이 되는 확률변수 C에 대한 A, B의 결합조건부확률이 C에 대한 A, B의 조건부확률의 곱과 같으면 A와 B가 C에 대해 조건부독립이라고 한다. - 출처 : [데이터 사이언스 스쿨] 7.2 나이브베이즈 분류모형 2021. 5. 12.
[데이터 사이언스 스쿨] 7.1 선형판별분석법과 이차판별분석법 선형판별분석법(linear discriminant analysis, LDA)과 이차판별분석법(quadratic discriminant analysis, QDA)는 대표적인 확률론적 생성모형(generative model)이다. 가능도 즉, y의 클래스값에 따른 x의 분포에 대한 정보를 먼저 알아낸 후, 베이즈 정리를 사용하여 주어진 x에 대한 y의 확률분포를 찾아낸다. - 출처 : [데이터 사이언스 스쿨] 7.1 선형판별분석법과 이차판별분석법 2021. 5. 12.