★ 데이터 준비 절차
1. 문제 정의
- 어떤 문제를 해결하고 싶은가?
2. 데이터 수집
① 공개 데이터 활용
[국내]
- AI 팩토리 : http://aifactory.space
- 공공데이터포털 : https://www.data.go.kr/datasetsearch
- AI허브 : http://www.aihub.or.kr
- 데이콘 : https://dacon.io
- 보건의료빅데이터개방시스템 : https://opendata.hira.or.kr
[국외]
- 캐글 : https://www.kaggle.com/datasets
- 구글 : https://toolbox.google.com/datasetsearch
- 레딧 : https://www.reddit.com/r/datasets/
- UCI : https://archive.ics.uci.edu/ml/
② 자체 데이터 수집
- 조직내 또는 개인 보유 데이터 수집
- 웹 수집(크롤링)
3. 데이터 전처리
① 데이터 형식 맞추기
- 날짜 표시 형식, 금액 표시 형식 등
② 비어있는 값 채우기
- 근사값, 평균값, 최빈값 등
4. 연관 데이터 추가
- 요일, 계절, 날씨 등
★ 데이터는 양보다 질
'IT 와 Social 이야기 > ML-DL' 카테고리의 다른 글
[K-ICT 빅데이터센터] Ch7. 와인 품질 데이터를 활용한 분석 모델링-임정환교수 (0) | 2021.04.06 |
---|---|
[K-ICT 빅데이터센터] Ch6. 파이썬 교차검증, 특징공학-임정환교수 (0) | 2021.04.05 |
[K-ICT 빅데이터센터] Ch5. 파이썬 Scikit-Learn 소개 및 활용-임정환교수 (0) | 2021.04.01 |
[K-ICT 빅데이터센터] Ch4. 머신러닝과 통계학-임정환교수 (0) | 2021.03.31 |
[K-ICT 빅데이터센터] Ch3. 파이썬 Matplolib 소개 및 활용-임정환교수 (0) | 2021.03.31 |