본문 바로가기

파이썬406

[데이터 사이언스 스쿨] 6.1 로지스틱 회귀분석 로지스틱(Logistic) 회귀분석은 회귀분석이라는 명칭과 달리 회귀분석 문제와 분류문제 모두에 사용할 수 있다. - 출처 : [데이터 사이언스 스쿨] 6.1 로지스틱 회귀분석 2021. 5. 12.
[데이터 사이언스 스쿨] 5.4 분류 성능평가 ○ scikit learn 패키지에서 지원하는 분류 성능평가 명령 confusion_matrix(y_true, y_pred) accuracy_score(y_true, y_pred) precision_score(y_true, y_pred) recall_score(y_true, y_pred) fbeta_score(y_true, y_pred, beta) f1_score(y_true, y_pred) classfication_report(y_true, y_pred) roc_curve auc - 출처 : [데이터 사이언스 스쿨] 5.4 분류 성능평가 2021. 5. 12.
[데이터 사이언스 스쿨] 5.3 분류모형 분류(classification)문제는 독립변수값이 주어졌을 때 그 값과 가장 연관성이 큰 종속변수값(클래스)을 예측하는 문제이다. 현실적인 문제로 바꾸어 말하면 어떤 표본에 대한 데이터가 주어졌을 때 그 표본이 어떤 카테고리 혹은 클래스에 속하는지를 알아내는 문제이기도 하다. ○ 분류모형의 종류 ① 확률적 모형 - 확률적 판별(discriminative) 모형 로지스틱 회귀 의사결정나무 - 확률적 생성(generative) 모형 LDA/QDA 나이브 베이지안 ② 판별함수(discriminative function) 모형 퍼셉트론 서포트벡터머신 인공신경망 - 출처 : [데이터 사이언스 스쿨] 5.3 분류모형 2021. 5. 12.
[데이터 사이언스 스쿨] 5.1 분류용 예제 데이터 ○ 붓꽃 데이터 ○ 와인 데이터 ○ 유방암 진단 데이터 ○ 대표 수종 데이터 대표 수종 데이터는 미국 삼림을 30×30m 영역으로 나누어 각 영역의 특징으로부터 대표적인 나무의 종류(species of tree)을 예측하기위한 데이터이다. 수종은 7종류이지만 특징 데이터가 54종류, 표본 데이터의 갯수가 581,012개에 달하는 대규모 데이터이다. ○ 뉴스 그룹 텍스트 데이터 ○ 로이터 말뭉치 로이터 말뭉치 데이터는 47,236개의 단어(vocalbulary)로 이루어진 804,414개의 문서를 103개의 클래스로 분류하기 위한 텍스트 데이터이다. TF-IDF 인코딩된 특징 데이터 행렬을 제공한다. ○ 숫자 필기 이미지 데이터 ○ 올리베티 얼굴 사진 데이터 AT&T와 캠프리지 대학 전산 연구실에서 공동으.. 2021. 5. 11.