1. 지도 학습(Supervised Machine Learning)
- 기계가 데이터를 어떻게 해석하는지 파악할 수 있도록 정답을 전달하며 학습시키는 방법
- 데이터에 태그나 해설을 달아 기계가 답을 찾을 수 있게 하므로 Input과 Output이 확실
- 많은 동물 사진을 반복하여 보여주면서 어떤 동물인지 가르쳐주고 학습시키는 방법
- 필요한 결과에 따라 분류(Classification)와 회귀(Regression) 두 가지로 구분
- 분류(Classification)
- 주어진 데이터를 카테고리로 분류하는 것
- 이진 분류(Binary Classification): 어떤 메일이 스팸인지 아닌지 구분
- 다중 분류(Multi-label Classification): 언어를 입력했을 때 한국어, 영어, 중국어 등 다양한 옵션에서 어떤 언어인지를 분류
- 회귀(Regression)
- 데이터의 특징을 기준으로 결과를 예측하는 것
- 패턴이나 트렌드 등을 파악할 때 많이 사용(지하철역과의 거리에 따른 집값 예측, 공부 시간에 따른 시험 점수 예측 등)
- 대량의 고품질 데이터의 지속적 확보를 위해 데이터 라벨링(Data Labeling)을 위한 노력 필요
- 텍스트에 해설을 다는 방식으로 기계를 꾸준히 학습시킬 수 있지만 방대한 양의 데이터가 필요하고 시간이 많이 걸림
2. 비지도 학습(자율 학습, Unsupervised Machine Learning)
- 정답 없이 입력한 데이터를 사용하여 패턴이나 특성을 발견해내는 학습 방법
- 동물 사진을 비지도 학습으로 분류할 경우, 기계가 사진을 보고 어떤 동물인지 알지는 못하더라도 다리가 2개인 동물, 4개인 동물 등 주요 특징별로 분류를 함
- 군집화(Clustering)
- 뉴스 그룹핑
- 쇼핑몰 내 상품 추천 시스템
- 데이터만 있으면 기계가 스스로 학습, 결과에 대한 가이드가 없어 기대와는 다른 결과를 내놓을 수 있음
3. 기계 학습(Machine Learning)의 핵심은?
- 학습 교재인 '데이터(Data)'가 중요
- 학습용 데이터의 속성(특징): 4V (5V)
- Volume: 데이터의 양이 많아야 한다.
- Variety: 데이터가 다양해야 한다.
- Velocity: 데이터의 생성과 저장, 처리 과정이 빨라야 한다.
- Veracity: 수집한 데이터가 분석할 가치가 있을 만큼 정확해야 한다.
- (Value): 데이터의 수집과 분석에 필요 및 가치가 있어야 한다.
[Mobiinside "똑똑한 AI 만드는 언어의 세계: 머신러닝&인공지능은 어떻게 똑똑해질까요?" 정리]
'IT 와 Social 이야기 > Data Science' 카테고리의 다른 글
[ITWorld] 숫자 이면까지 보여주는 데이터 시각화 팁 6가지 (0) | 2020.07.18 |
---|---|
[CIOKorea] 데이터를 가치있는 '자산'으로 만들기 - '5가지 지침' (0) | 2020.06.29 |
데이터 라벨링 Data Labeling (0) | 2020.06.15 |
[KISDI] 텍스트자료를 활용한 ICT이슈 탐지 및 분석 방법론 연구 (0) | 2020.06.10 |
[엔코아, 김옥기 데이터서비스센터장] 저성장 시대, 데이터 경제만이 살길 이다! (0) | 2015.10.30 |