본문 바로가기
IT 와 Social 이야기/Python

[데이터 사이언스 스쿨] ml1.1 데이터 분석의 소개

by manga0713 2021. 5. 5.

● 예측(prediction) : 예측이란 숫자, 문서, 이미지, 음성, 영상 등의 여러 가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력하는 분석 방법이다.

 

- 데이터 분석에서 말하는 예측이라는 용어는 시간상으로 미래의 의미는 포함하지 않는다. 시계열 분석에서는 시간상으로 미래의 데이터를 예측하는 경우가 있는데 이 때는 미래예측(forecasting) 이라는 용어를 사용한다.

 

● 입력 데이터(input data) : 분석의 기반이 되는 데이터로 보통 알파벳 X로 표기한다.

 

- 독립변수(independent variable), 특징(feature), 설명변수(explanatory variable) 등의 용어로 쓰기도 한다.

 

● 출력 데이터(output data) : 추정하거나 예측하고자 하는 목적 데이터를 말한다. 보통 알파벳 Y로 표기한다.

 

- 종속변수(dependent variable), 라벨(label), 클래스(class)

 

● 예측 성능은 이러한 입출력 데이터의 숫자와 종류에 크게 의존하기 때문에 정확히 어떠한 값을 가지는 입력을 몇 개 사용하겠다는 문제 정의가 예측 문제를 해결하는 데 가장 중요한 부분이 될 수도 있다.

 

● 규칙기반(rule based) 방법 : 어떤 입력이 들어오면 어떤 출력이 나오는지를 결정하는 규칙이나 알고리즘을 사람이 미리 만들어 놓는 방법이다.

 

● 학습기반(training based) 방법, 데이터기반(data based) 방법 : 대량의 데이터를 컴퓨터에 보여줌으로써 스스로 규칙을 만들게 하는 방법이다.

 

- 학습용 데이터 집합(training data set)을 사람이 만들어 주어야 한다. 학습용 데이터 집합은 입력값과 목푯값(정답)을 쌍으로 가지는 표본 데이터의 집합이다. 이는 학습시키고자 하는 예측 시스템이 최종적으로 동작하기를 바라는 모습을 표현한 데이터 집합이라고 볼 수 있다.

 

● 학습용 데이터 집합 : 정답이 표시된 수백 개의 문제를 모아놓은 문제집

 

● 지도학습(supervised learning) : 이 문제집을 컴퓨터에 주고 학습시키는 것. 컴퓨터는 이 수백 개의 문제를 나름의 풀이방법으로 스스로 풀어본 다음, 정답을 이용하여 얼마나 맞았는지를 채점한다. 그런 다음 풀이방법을 스스로 조금씩 바꾸어 보면서 풀이와 채점을 반복한다. 이 과정을 반복하는 것. 따라서 지도학습이 얼마나 잘 되는가는 학습용 데이터의 양과 질에 크게 의존한다.

 

● 목푯값(target) : 학습용 데이터 집합에 붙어있는 출력 데이터, 즉 정답

 

● 레이블링(labelling) : 입력데이터에 대응하는 목푯값(정답)을 붙여 주는 것

 

● 전처리(preprocessing) : 문서나 이미지와 같은 데이터를 컴퓨터가 처리할 수 있는 숫자 데이터 바꾸어주는 과정. 전체 입력 정보 중 실제로 출력 데이터의 결정에 영향을 미칠만한 핵심 정보를 선택하거나 복수의 입력 데이터를 조합하여 새로운 입력 데이터를 만드는 것 등

 

● 인코딩(encoding) : 문서나 이미지와 같은 데이터를 컴퓨터가 처리할 수 있는 숫자 데이터 바꾸어주는 과정

 

 

 

● 입력차원(input dimension) : 입력의 개수, 숫자 벡터 크기

 

- 일단 정해지면 바꿀 수 없고 고정되어야 한다. (차원을 맞춰야 한다.)

 

 

● 카테고리(category) 값(범주형값) : 주로 기호로 표시되며 비연속적

 

- 카테고리값은 가질 수 있는 경우의 수가 제한되어 있다. 이러한 경우의 수를 ‘클래스(class)’라고 부르는데 동전을 던진 결과와 같이 “앞면(head)” 혹은 “뒷면(tail)”처럼 두 가지 경우만 가능하면 ‘이진 클래스(binary class)’라고 한다. 그리고 주사위를 던져서 나온 숫자와 같이 세 개 이상의 경우가 가능하면 ‘다중 클래스(multi class)’라고 한다.

 

● 회귀분석(regression analysis) : 출력하고자 하는 값이 숫자인 경우

 

● 분류(classification) : 출력하고자 하는 값이 카테고리값인 경우

 

 

 

● 비지도학습(unsupervised learning) : 입력/출력이 구분되지 않는 단순한 “데이터들의 관계”에서 특정한 규칙을 찾아내는 것

 

- 비지도학습에서는 입력/출력 데이터를 구분짓지 않고 단순히 데이터를 입력하면 이 데이터들간의 규칙을 찾아내거나 미리 지정한 규칙(모형)에 맞는 데이터인지를 구분해 낸다.

 

● 클러스터링(clustering) : 대표적인 비지도학습 방법 중 하나. 유사한 데이터까지 같은 그룹으로 모으는 방법

 

 

dss_ml1_1_intro data analysis.ipynb
0.47MB

 

- 출처 : [데이터 사이언스 스쿨] ml1.1 데이터 분석의 소개