본문 바로가기

과적합3

[딥러닝을이용한 자연어 처리 입문] 0804 과적합(Overfitting)을 막는 방법들 1. 데이터의 양을 늘리기 - 데이터의 양을 늘릴 수록 모델은 데이터의 일반적인 패턴을 학습하여 과적합을 방지할 수 있음 - 의도적으로 기존의 데이터를 조금씩 변형하고 추가하여 데이터의 양을 늘리기도 함(데이터 증강 Data Augmentation) 2. 모델의 복잡도 줄이기 - 인공 신경망의 복잡도는 은닉층(hidden layer)의 수나 매개변수의 수 등으로 결정되므로 이 수를 조절함 3. 가중치 규제(Regularization) 적용하기 - L1 규제 : 가중치 w들의 절대값 합계를 비용 함수에 추가 (L1 노름) - L2 규제 : 모든 가중치 w들의 제곱합을 비용 함수에 추가 (L2 노름) 4. 드롭아웃(Dropout) - 학습 과정에서 신경망의 일부를 사용하지 않는 것 - 신경망 학습 시에만 사.. 2021. 5. 18.
[데이터 사이언스 스쿨] 6.5 정규화 선형회귀 ○ 정규화(regularized) 선형회귀 : 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법 - Ridge 회귀모형 : 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다. - Lasso 회귀모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다. - Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형 ○ Ridge 모형과 Lasso 모형의 차이 : Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다. ○ 최적 정규화 : 정규화에 .. 2021. 5. 11.
[데이터 사이언스 스쿨] 6.3 교차검증 cross validation ○ 표본내 성능 검증(in-sample testing) : 학습 데이터 집합의 종속 변수값을 얼마나 잘 예측하였는지를 나타내는 성능을검사하는것 ○ 표본외 성능 검증(out-of-sample testing, 교차검증(cross validation)) : 학습에 쓰이지 않는 표본 데이터 집합의 종속 변수 값을 얼마나 잘 예측하는가를 검사하는 것 ○ 과최적화(overfitting) : 표본내 성능은 좋으면서 표본외 성능이 상대적으로 떨어지는 경우 ○ 교차검증을 하려면 두 종류의 데이터 집합이 필요하다. 모형 추정 즉 학습을 위한 데이터 집합 (training data set) 성능 검증을 위한 데이터 집합 (test data set) ○ 보통은 가지고 있는 데이터 집합을 학습용과 검증용으로 나누어 학습용 데이.. 2021. 5. 11.