본문 바로가기

파이썬406

[데이터 사이언스 스쿨] 대규모 데이터 학습 ○ 대규모 데이터(big data)의 경우에는 메모리 등의 문제로 특정한 모형은 사용할 수 없는 경우가 많다. 이 때는 사전 확률분포를 설정할 수 있는 생성 모형 시작 가중치를 설정할 수 있는 모형 등을 이용하고 전체 데이터를 처리 가능한 작은 조각으로 나누어 학습을 시키는 점진적 학습 방법을 사용한다. ○ SGD : 퍼셉트론 모형은 가중치를 계속 업데이트하므로 일부 데이터를 사용하여 구한 가중치를 다음 단계에서 초기 가중치로 사용할 수 있다. ○ 나이브베이즈 모형 : 나이브베이즈 모형과 같은 생성모형은 일부 데이터를 이용하여 구한 확률분포를 사전확률분포로 사용할 수 있다. ○ 그레디언트 부스팅 : 초기 커미티 멤버로 일부 데이터를 사용하여 학습한 모형을 사용할 수 있다. ○ 랜덤 포레스트 : 랜덤 포레.. 2021. 5. 14.
[데이터 사이언스 스쿨] 특징 선택 ○ 특징데이터의 종류가 많은 경우에 가장 중요하다고 생각되는 특징데이터만 선택하여 특징데이터의 종류를 줄이기 위한 방법 - 분산에 의한 선택 : 표본 변화에 따른 데이터 값의 변화 즉, 분산이 기준치보다 낮은 특징 데이터는 사용하지 않는 방법으로 분산에 의한 선택은 반드시 상관관계와 일치한다는 보장이 없기 때문에 신중하게 사용해야 한다. - 단일 변수 선택 : 각각의 독립변수를 하나만 사용한 예측모형의 성능을 이용하여 가장 분류성능 혹은 상관관계가 높은 변수만 선택하는 방법으로 단일 변수의 성능이 높은 특징만 모았을 때 전체 성능이 반드시 향상된다는 보장은 없다. - 다른 모형을 이용한 특성 중요도 계산 : 특성 중요도(feature importance)를 계산할 수 있는 랜덤포레스트 등의 다른 모형을 .. 2021. 5. 14.
[데이터 사이언스 스쿨] 비대칭 데이터 문제 imbalanced data problem ○ 비대칭 데이터 문제(imbalanced data problem) : 각 클래스에 속한 데이터의 갯수의 차이에 의해 발생하는 문제들 ○ 비대칭 데이터는 다수 클래스 데이터에서 일부만 사용하는 언더 샘플링이나 소수 클래스 데이터를 증가시키는 오버 샘플링을 사용하여 데이터 비율을 맞추면 정밀도(precision)가 향상된다. 오버샘플링(Over-Sampling) 언더샘플링(Under-Sampling) 복합샘플링(Combining Over-and Under-Sampling) - 출처 : [데이터 사이언스 스쿨] 비대칭 데이터 문제 imbalanced data problem 2021. 5. 14.
[데이터 사이언스 스쿨] 모형 최적화 ○ Scikit-Learn의 모형 최적화 도구 - validation_curve : 단일 파라미터 최적화 - GridSearchCV : 그리드를 사용한 복수 하이퍼 파라미터 최적화 - ParameterGrid : 복수 파라미터 최적화용 그리드 - 출처 : [데이터 사이언스 스쿨] 모형 최적화 2021. 5. 13.