IT 와 Social 이야기/Python348 [데이터 사이언스 스쿨] 6.3 교차검증 cross validation ○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것 ○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것 ○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우 ○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다. 모형 추정 즉 학습을 위한 데이터 집합 (training data set) 성능 검증을 위한 데이터 집합 (test data set) ○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이.. 2021. 5. 11. [데이터 사이언스 스쿨] 6.2 기저함수 모형과 과최적화 ○ 기저함수(bias function) : 비선형 데이터의 예측률을 높이는 비선형 모형을 만들기 위해서는 데이터에 적합한 비선형 함수를 충분히 많이 생각해 낼 수 있어야 한다. 이러한 고충을 덜기 위해 만들어진 것이 기저함수(basis function) 모형이다. 기저함수는 특정한 규칙에 따라 만들어지는 함수의 열(sequence)로서 충분히 많은 수의 함수가 있으면 어떤 모양의 함수라도 비슷하게 흉내낼 수 있는 것을 말한다. - 다항 기저함수(polynomial basis function) - 직교기저함수(orthogonal basis function) - 방사 기저함수 - 삼각 기저함수 - 시그모이드 기저함수 ○ 과최적화(overfitting) : 모형을 특정 샘플 데이터에 대해 과도하게 최적화하는 .. 2021. 5. 11. [데이터 사이언스 스쿨] 6.1 모형 진단과 수정 ○ 진단(diagnosis) : 회귀분석에 사용된 데이터가 회귀분석에 사용된 모형 가정을 제대로 만족하고 있는지를 확인하는 과정 ○ 잔차 정규성 : 데이터가 모형 가정을 만족하면 분석결과로 나온 잔차는 정규분포를 따라야 한다. ○ 잔차와 독립 변수 : 데이터가 올바른 모형으로 분석되었다면 잔차는 더이상 독립 변수와 상관관계를 가지지 않아야 한다. ○ 이분산성 : 선형 회귀 모형에서는 종속 변수 값의 분산이 독립 변수의 값과 상관없이 고정된 값을 가져야한다. 그러나 실제 데이터는 독립 변수 값의 크기가 커지면 종속 변수 값의 분산도 커지는 이분산성(heteroskedastic) 문제가 발생한다. ○ 자기 상관 계수 : 선형 회귀 모형에서는 오차(disturbance)들이 서로 (모수-조건부) 독립이라고 가.. 2021. 5. 10. [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA ○ 분산 분석(ANOVA: Analysis of Variance)은 종속변수의 분산과 독립변수의 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법이다. - 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석하는데도 사용된다. ○ 결정계수(Coefficient of Determination) : 회귀분석의 성능을 나타내는 수치 - 출처: [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA 2021. 5. 10. 이전 1 ··· 11 12 13 14 15 16 17 ··· 87 다음