본문 바로가기
IT 와 Social 이야기/Data Science

지도 학습 vs. 비지도 학습 (Supervised Machine Learning vs. Unsupervised Machine Learning)

by manga0713 2020. 6. 24.





1. 지도 학습(Supervised Machine Learning)








- 기계가 데이터를 어떻게 해석하는지 파악할 수 있도록 정답을 전달하며 학습시키는 방법

- 데이터에 태그나 해설을 달아 기계가 답을 찾을 수 있게 하므로 Input과 Output이 확실

- 많은 동물 사진을 반복하여 보여주면서 어떤 동물인지 가르쳐주고 학습시키는 방법

- 필요한 결과에 따라 분류(Classification)와 회귀(Regression) 두 가지로 구분

- 분류(Classification)

    • 주어진 데이터를 카테고리로 분류하는 것
    • 이진 분류(Binary Classification): 어떤 메일이 스팸인지 아닌지 구분
    • 다중 분류(Multi-label Classification): 언어를 입력했을 때 한국어, 영어, 중국어 등 다양한 옵션에서 어떤 언어인지를 분류

- 회귀(Regression)

    • 데이터의 특징을 기준으로 결과를 예측하는 것
    • 패턴이나 트렌드 등을 파악할 때 많이 사용(지하철역과의 거리에 따른 집값 예측, 공부 시간에 따른 시험 점수 예측 등)

- 대량의 고품질 데이터의 지속적 확보를 위해 데이터 라벨링(Data Labeling)을 위한 노력 필요

- 텍스트에 해설을 다는 방식으로 기계를 꾸준히 학습시킬 수 있지만 방대한 양의 데이터가 필요하고 시간이 많이 걸림



2. 비지도 학습(자율 학습, Unsupervised Machine Learning)







- 정답 없이 입력한 데이터를 사용하여 패턴이나 특성을 발견해내는 학습 방법

- 동물 사진을 비지도 학습으로 분류할 경우, 기계가 사진을 보고 어떤 동물인지 알지는 못하더라도 다리가 2개인 동물, 4개인 동물 등 주요 특징별로 분류를 함

- 군집화(Clustering)

    • 뉴스 그룹핑
    • 쇼핑몰 내 상품 추천 시스템

- 데이터만 있으면 기계가 스스로 학습, 결과에 대한 가이드가 없어 기대와는 다른 결과를 내놓을 수 있음



3. 기계 학습(Machine Learning)의 핵심은?


- 학습 교재인 '데이터(Data)'가 중요

- 학습용 데이터의 속성(특징): 4V (5V)

    • Volume: 데이터의 양이 많아야 한다.
    • Variety: 데이터가 다양해야 한다.
    • Velocity: 데이터의 생성과 저장, 처리 과정이 빨라야 한다.
    • Veracity: 수집한 데이터가 분석할 가치가 있을 만큼 정확해야 한다.
    • (Value): 데이터의 수집과 분석에 필요 및 가치가 있어야 한다.


[Mobiinside "똑똑한 AI 만드는 언어의 세계: 머신러닝&인공지능은 어떻게 똑똑해질까요?" 정리]