○ 붓꽃 데이터
○ 와인 데이터
○ 유방암 진단 데이터
○ 대표 수종 데이터
대표 수종 데이터는 미국 삼림을 30×30m 영역으로 나누어 각 영역의 특징으로부터 대표적인 나무의 종류(species of tree)을 예측하기위한 데이터이다. 수종은 7종류이지만 특징 데이터가 54종류, 표본 데이터의 갯수가 581,012개에 달하는 대규모 데이터이다.
○ 뉴스 그룹 텍스트 데이터
○ 로이터 말뭉치
로이터 말뭉치 데이터는 47,236개의 단어(vocalbulary)로 이루어진 804,414개의 문서를 103개의 클래스로 분류하기 위한 텍스트 데이터이다. TF-IDF 인코딩된 특징 데이터 행렬을 제공한다.
○ 숫자 필기 이미지 데이터
○ 올리베티 얼굴 사진 데이터
AT&T와 캠프리지 대학 전산 연구실에서 공동으로 제작한 얼굴 사진 데이터 베이스의 간략화된 버전.
○ Labeled Faces in the Wild (LFW) 데이터
유명 정치인 등의 실제 얼굴에 대한 이미지 데이터
- 출처 : [데이터 사이언스 스쿨] 5.1 분류용 예제 데이터
'IT 와 Social 이야기 > Python' 카테고리의 다른 글
[데이터 사이언스 스쿨] 5.3 분류모형 (0) | 2021.05.12 |
---|---|
[데이터 사이언스 스쿨] 5.2 분류용 가상 데이터 생성 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 13.1 추천 시스템 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.5 정규화 선형회귀 (0) | 2021.05.11 |
[데이터 사이언스 스쿨] 6.4 다중공선성과 변수 선택 (0) | 2021.05.11 |