데이터 분석141 [데이터 사이언스 스쿨] 특징 선택 ○ 특징데이터의 종류가 많은 경우에 가장 중요하다고 생각되는 특징데이터만 선택하여 특징데이터의 종류를 줄이기 위한 방법 - 분산에 의한 선택 : 표본 변화에 따른 데이터 값의 변화 즉, 분산이 기준치보다 낮은 특징 데이터는 사용하지 않는 방법으로 분산에 의한 선택은 반드시 상관관계와 일치한다는 보장이 없기 때문에 신중하게 사용해야 한다. - 단일 변수 선택 : 각각의 독립변수를 하나만 사용한 예측모형의 성능을 이용하여 가장 분류성능 혹은 상관관계가 높은 변수만 선택하는 방법으로 단일 변수의 성능이 높은 특징만 모았을 때 전체 성능이 반드시 향상된다는 보장은 없다. - 다른 모형을 이용한 특성 중요도 계산 : 특성 중요도(feature importance)를 계산할 수 있는 랜덤포레스트 등의 다른 모형을 .. 2021. 5. 14. [데이터 사이언스 스쿨] 비대칭 데이터 문제 imbalanced data problem ○ 비대칭 데이터 문제(imbalanced data problem) : 각 클래스에 속한 데이터의 갯수의 차이에 의해 발생하는 문제들 ○ 비대칭 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더 샘플링이나 소수 클래스 데이터를 증가시키는 오버 샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다. 오버샘플링(Over-Sampling) 언더샘플링(Under-Sampling) 복합샘플링(Combining Over-and Under-Sampling) - 출처 : [데이터 사이언스 스쿨] 비대칭 데이터 문제 imbalanced data problem 2021. 5. 14. [데이터 사이언스 스쿨] 5.3 분류모형 분류(classification)문제는 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값(클래스)을 예측하는 문제이다. 현실적인 문제로 바꾸어 말하면 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지를 알아내는 문제이기도 하다. ○ 분류모형의 종류 ① 확률적 모형 - 확률적 판별(discriminative) 모형 로지스틱 회귀 의사결정나무 - 확률적 생성(generative) 모형 LDA/QDA 나이브 베이지안 ② 판별함수(discriminative function) 모형 퍼셉트론 서포트벡터머신 인공신경망 - 출처 : [데이터 사이언스 스쿨] 5.3 분류모형 2021. 5. 12. [데이터 사이언스 스쿨] 5.2 분류용 가상 데이터 생성 ○ Scikit-Learn 의 가상 데이터 생성 함수 - make_classification - make_blobs - make_moons - make_gaussian_quantiles ○ make_blobs ○ make_mons ○ make_gaussian_quantiles - 출처 : [데이터 사이언스 스쿨] 5.2 분류용 가상 데이터 생성 2021. 5. 11. 이전 1 2 3 4 ··· 36 다음