본문 바로가기

IT 와 Social 이야기/ML-DL48

[K-ICT 빅데이터센터] Ch8. 와인 품질 데이터를 활용한 분석 모델링-선형회귀모델, 규제선형회귀모델-임정환교수 주요 정리 선형회귀모델의 성능을 측정하는 평가 지표로 RMSE를 사용할 수 있다. 과분산 선형회귀모델에 대해 규제를 적용하면 오버피팅 문제를 감소시킬 수 있다. 리지회귀모델은 규제가 있는 선형회귀모델로 가중치 벡터의 제곱항을 합한 L2노름을 2로 나눈 값을 적용한다. 라쏘회귀모델은 규제가 있는 선형회귀모델로 가중치 벡터의 절대값의 합인 L1노름을 적용한다. ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 7.
[K-ICT 빅데이터센터] Ch7. 와인 품질 데이터를 활용한 분석 모델링-임정환교수 주요 정리 선형회귀 모델을 생성하기에 앞서 상관분석, 산점도행령 등을 이용해 데이터에 대한 탐색적 분석을 실행합니다. 단순 선형 회귀란 설명 변수인 단일 특징과 단일 반응 변수 간에 선형 관계가 있다고 가정하고 초평면이라고 하는 선형 평면을 이용해 모델링 한 것이다. 다중 선형 회귀는 설명 변수인 다수의 특징과 단일 반응 변수 간에 선형 관계가 있다고 가정하고 초평면이라고 하는 선형 평면을 이용해 모델링 한 것이다. 다항 회귀는 설명 변수와 반응 변수의 비선형 관계를 모델링 한다. 회귀모델 성능의 기본 평가지표는 결정계수 R**2를 이용해 측정한다. ★ 강의자료, 소스코드 다운받기 : https://kbig.kr/portal/kbig/datacube/... 2021. 4. 6.
[K-ICT 빅데이터센터] Ch6. 파이썬 교차검증, 특징공학-임정환교수 주요 정리 1. 교차검증을 사용하면 모델을 훈련시킬 데이터를 빠뜨릴 수 있는 문제를 방지할 수 있다. 2. 검증곡선을 시각화하면 모델의 복잡도와 관련된 편향과 분산 사이의 트레이드오프에서 적절한 지점을 확인할 수 있다. 3. 학습곡선 플롯을 이용하면 훈련집합의 크기에 따른 훈련 점수와 검증 점수의 변화를 시각적으로 확인할 수 있다. 4. 그리드 서치 자동화 도구를 이용하면 검증 점수를 최대화하는 최적의 모델을 찾아 데이터에 적합시킬 수 있다. 5. 특징 공학을 통해 머신러닝의 특징 행렬을 구축하는데 필요한 범주형 데이터의 인코딩, 복잡도를 증가시키기 위한 유도 특징의 추가, 누락 데이터 대체 등의 작업을 수행하며, 파이프라인을 통해 작업의 생산성을 높일 수 있다. ★ 강의자료, 소스코드 다운받기 : ht.. 2021. 4. 5.
[친절한 AI] 머신러닝, 데이터 준비 방법 - 데이터 제공 사이트, 전처리 방법 ★ 데이터 준비 절차 1. 문제 정의 - 어떤 문제를 해결하고 싶은가? 2. 데이터 수집 ① 공개 데이터 활용 [국내] - AI 팩토리 : http://aifactory.space​ - 공공데이터포털 : https://www.data.go.kr/datasetsearch​ - AI허브 : http://www.aihub.or.kr​ - 데이콘 : https://dacon.io​ - 보건의료빅데이터개방시스템 : https://opendata.hira.or.kr​ [국외] - 캐글 : https://www.kaggle.com/datasets​ - 구글 : https://toolbox.google.com/datasetsearch​ - 레딧 : https://www.reddit.com/r/datasets/​ - U.. 2021. 4. 2.