○ 대규모 데이터(big data)의 경우에는 메모리 등의 문제로 특정한 모형은 사용할 수 없는 경우가 많다. 이 때는
- 사전 확률분포를 설정할 수 있는 생성 모형
- 시작 가중치를 설정할 수 있는 모형
등을 이용하고 전체 데이터를 처리 가능한 작은 조각으로 나누어 학습을 시키는 점진적 학습 방법을 사용한다.
○ SGD : 퍼셉트론 모형은 가중치를 계속 업데이트하므로 일부 데이터를 사용하여 구한 가중치를 다음 단계에서 초기 가중치로 사용할 수 있다.
○ 나이브베이즈 모형 : 나이브베이즈 모형과 같은 생성모형은 일부 데이터를 이용하여 구한 확률분포를 사전확률분포로 사용할 수 있다.
○ 그레디언트 부스팅 : 초기 커미티 멤버로 일부 데이터를 사용하여 학습한 모형을 사용할 수 있다.
○ 랜덤 포레스트 : 랜덤 포레스트와 같은 앙상블 모형에서는 일부 데이터를 사용한 모형을 개별 분류기로 사용할 수 있다.
- 출처 : [데이터 사이언스 스쿨] 대규모 데이터 학습
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] K-평균 군집화 clustering (0) | 2021.05.14 |
---|---|
[데이터 사이언스 스쿨] 군집화 clustering (0) | 2021.05.14 |
[데이터 사이언스 스쿨] 특징 선택 (0) | 2021.05.14 |
[데이터 사이언스 스쿨] 비대칭 데이터 문제 imbalanced data problem (0) | 2021.05.14 |
[데이터 사이언스 스쿨] 모형 최적화 (0) | 2021.05.13 |