본문 바로가기

회귀분석13

[딥러닝을이용한 자연어 처리 입문] 0706 텐서플로우를 사용한 로지스틱 회귀 실습 1. 케라스로 구현하는 로지스틱 회귀 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0706 텐서플로우를 사용한 로지스틱 회귀 실습 2021. 5. 17.
[데이터 사이언스 스쿨] 6.3 교차검증 cross validation ○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것 ○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것 ○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우 ○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다. 모형 추정 즉 학습을 위한 데이터 집합 (training data set) 성능 검증을 위한 데이터 집합 (test data set) ○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이.. 2021. 5. 11.
[데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA ○ 분산 분석(ANOVA: Analysis of Variance)은 종속변수의 분산과 독립변수의 분산간의 관계를 사용하여 선형회귀분석의 성능을 평가하고자 하는 방법이다. - 서로 다른 두 개의 선형회귀분석의 성능 비교에 응용할 수 있으며 독립변수가 카테고리 변수인 경우 각 카테고리 값에 따른 영향을 정량적으로 분석하는데도 사용된다. ○ 결정계수(Coefficient of Determination) : 회귀분석의 성능을 나타내는 수치 - 출처: [데이터 사이언스 스쿨] 5.4 분산 분석과 모형 성능 ANOVA 2021. 5. 10.
[데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 개별적인 데이터 표본 하나하나가 회귀분석 결과에 미치는 영향력은 레버리지 분석이나 아웃라이어 분석을 통해 알 수 있다. ○ 레버리지(leverage) : 실제 종속변수값이 예측치(predicted target)에 미치는 영향을 나타낸 값 ○ 아웃라이어(outlier) : 모형에서 설명하고 있는 데이터와 동떨어진 값을 가지는 데이터, 즉 잔차가 큰 데이터. 잔차의 크기는 독립 변수의 영향을 받으므로 아웃라이어를 찾으려면 이 영향을 제거한 표준화된 잔차를 계산해야 한다. - 출처 : [데이터 사이언스 스쿨] 5.3 레버지리와 아웃라이어 2021. 5. 10.