본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 특징 선택

by manga0713 2021. 5. 14.

○ 특징데이터의 종류가 많은 경우에 가장 중요하다고 생각되는 특징데이터만 선택하여 특징데이터의 종류를 줄이기 위한 방법

 

- 분산에 의한 선택 : 표본 변화에 따른 데이터 값의 변화 즉, 분산이 기준치보다 낮은 특징 데이터는 사용하지 않는 방법으로 분산에 의한 선택은 반드시 상관관계와 일치한다는 보장이 없기 때문에 신중하게 사용해야 한다.

 

- 단일 변수 선택 : 각각의 독립변수를 하나만 사용한 예측모형의 성능을 이용하여 가장 분류성능 혹은 상관관계가 높은 변수만 선택하는 방법으로 단일 변수의 성능이 높은 특징만 모았을 때 전체 성능이 반드시 향상된다는 보장은 없다.

 

- 다른 모형을 이용한 특성 중요도 계산 : 특성 중요도(feature importance)를 계산할 수 있는 랜덤포레스트 등의 다른 모형을 사용하여 일단 특성을 선택하고 최종 분류는 다른 모형을 사용할 수도 있다.

 

 

 

dss_ml36_1_feature selection 특징 선택.ipynb
0.01MB

 

- 출처 : [데이터 사이언스 스쿨] 특징 선택