본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0209 데이터의 분리 Splitting Data

by manga0713 2021. 5. 16.

○ 데이터 분리(Splitting Data) : 데이터 집합을 입력(문제 X), 출력(정답 y) 또는 훈련용, 테스트용으로 분리하는 작업

 

1. 지도 학습(Supervised Learning)

 

- 지도 학습의 훈련 데이터는 정답이 무엇인지 맞춰야 하는 '문제'에 해당되는 데이터와 레이블이라고 부르는 '정답'이 적혀있는 데이터로 구성되어 있음. 쉽게 비유하면, 기계는 정답이 적혀져 있는 문제지를 문제와 정답을 함께 보면서 열심히 공부하고, 향후에 정답이 없는 문제에 대해서도 정답을 잘 예측해야 함.

 

- 표기 방식

 

<훈련 데이터>
X_train : 문제지 데이터
y_train : 문제지에 대한 정답 데이터

 

<테스트 데이터>
X_test : 시험지 데이터
y_test : 시험지에 대한 정답 데이터

 

 

2. X 와 y 분리하기

 

1) zip 함수를 이용하여 분리하기

 

 

2) 데이터프레임을 이용하여 분리하기

 

 

3) Numpy를 이용하여 분리하기

 

 

3. 테스트 데이터 분리하기

 

1) 사이킷 런을 이용하여 분리하기

 

 

2) 수동으로 분리하기

 

 

nlp_0209_splitting data 데이터의 분리.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0209 데이터의 분리 Splitting Data