본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] 대규모 데이터 학습

by manga0713 2021. 5. 14.

○ 대규모 데이터(big data)의 경우에는 메모리 등의 문제로 특정한 모형은 사용할 수 없는 경우가 많다. 이 때는

  • 사전 확률분포를 설정할 수 있는 생성 모형
  • 시작 가중치를 설정할 수 있는 모형

등을 이용하고 전체 데이터를 처리 가능한 작은 조각으로 나누어 학습을 시키는 점진적 학습 방법을 사용한다.

 

○ SGD : 퍼셉트론 모형은 가중치를 계속 업데이트하므로 일부 데이터를 사용하여 구한 가중치를 다음 단계에서 초기 가중치로 사용할 수 있다.

 

○ 나이브베이즈 모형 : 나이브베이즈 모형과 같은 생성모형은 일부 데이터를 이용하여 구한 확률분포를 사전확률분포로 사용할 수 있다.

 

○ 그레디언트 부스팅 : 초기 커미티 멤버로 일부 데이터를 사용하여 학습한 모형을 사용할 수 있다.

 

○ 랜덤 포레스트 : 랜덤 포레스트와 같은 앙상블 모형에서는 일부 데이터를 사용한 모형을 개별 분류기로 사용할 수 있다.

 

 

 

dss_ml37_1_using large scale data 대규모 데이터 학습.ipynb
0.01MB

 

- 출처 : [데이터 사이언스 스쿨] 대규모 데이터 학습