본문 바로가기
IT 와 Social 이야기/ML-DL

[친절한 AI] 머신러닝, 데이터 준비 방법 - 데이터 제공 사이트, 전처리 방법

by manga0713 2021. 4. 2.

 

 

★ 데이터 준비 절차

 

1. 문제 정의

- 어떤 문제를 해결하고 싶은가?

 

2. 데이터 수집

   ① 공개 데이터 활용

 

      [국내]

      - AI 팩토리 : http://aifactory.space

      - 공공데이터포털 : https://www.data.go.kr/datasetsearch

      - AI허브 : http://www.aihub.or.kr

      - 데이콘 : https://dacon.io

      - 보건의료빅데이터개방시스템 : https://opendata.hira.or.kr

 

      [국외]

      - 캐글 : https://www.kaggle.com/datasets

      - 구글 : https://toolbox.google.com/datasetsearch

      - 레딧 : https://www.reddit.com/r/datasets/

      - UCI : https://archive.ics.uci.edu/ml/

 

   ② 자체 데이터 수집

 

      - 조직내 또는 개인 보유 데이터 수집

      - 웹 수집(크롤링)

 

3. 데이터 전처리

 

   ① 데이터 형식 맞추기

 

      - 날짜 표시 형식, 금액 표시 형식 등

 

   ② 비어있는 값 채우기

 

      - 근사값, 평균값, 최빈값 등

 

4. 연관 데이터 추가

 

   - 요일, 계절, 날씨 등

 

★ 데이터는 양보다 질

 

 

 

 

출처: [친절한 AI] 머신러닝, 데이터 준비 방법 - 데이터 제공 사이트, 전처리 방법