○ 데이터 분리(Splitting Data) : 데이터 집합을 입력(문제 X), 출력(정답 y) 또는 훈련용, 테스트용으로 분리하는 작업
- 표기 방식
<훈련 데이터>
X_train : 문제지 데이터
y_train : 문제지에 대한 정답 데이터
<테스트 데이터>
X_test : 시험지 데이터
y_test : 시험지에 대한 정답 데이터
2. X 와 y 분리하기
1) zip 함수를 이용하여 분리하기
2) 데이터프레임을 이용하여 분리하기
3) Numpy를 이용하여 분리하기
3. 테스트 데이터 분리하기
1) 사이킷 런을 이용하여 분리하기
2) 수동으로 분리하기
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? (0) | 2021.05.16 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0208 원-핫 인코딩 One-Hot Encoding (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0207 패딩 Padding (0) | 2021.05.16 |
[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding (0) | 2021.05.15 |