본문 바로가기

정규화6

[딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization ○ 정제 및 정규화의 목적 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 - 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 2. 대, 소문자 통합 - 대, 소문자를 통합하는 것은 단어의 개수를 줄일 수 있는 또 다른 정규화 방법 (주로 대 --> 소) - 대문자와 소문자가 구분되어야 하는 경우도 있기 때문에 대문자와 소문자를 무작정 통합해서는 안 됨 3. 불필요한 단어의 제거(Removing Unnecessary Words) - 불필요한 단어(noise data) : 자연어가 아니면서 아무 의미도 .. 2021. 5. 15.
[데이터 사이언스 스쿨] 6.5 정규화 선형회귀 ○ 정규화(regularized) 선형회귀 : 선형회귀 계수(weight)에 대한 제약 조건을 추가함으로써 모형이 과도하게 최적화되는 현상, 즉 과최적화를 막는 방법 - Ridge 회귀모형 : 가중치들의 제곱합(squared sum of weights)을 최소화하는 것을 추가적인 제약 조건으로 한다. - Lasso 회귀모형 : 가중치의 절대값의 합을 최소화하는 것을 추가적인 제약 조건으로 한다. - Elastic Net 회귀모형 : 가중치의 절대값의 합과 제곱합을 동시에 제약 조건으로 가지는 모형 ○ Ridge 모형과 Lasso 모형의 차이 : Ridge 모형은 가중치 계수를 한꺼번에 축소시키는데 반해 Lasso 모형은 일부 가중치 계수가 먼저 0으로 수렴하는 특성이 있다. ○ 최적 정규화 : 정규화에 .. 2021. 5. 11.
[edwith] 인공지능 및 기계학습 개론 I : C6. Training Testing and Regularization-문일철교수 [LECTURE] 6.1. Over-fitting and Under-fitting : edwith - 신승재 www.edwith.org [LECTURE] 6.2. Bias and Variance : edwith - 신승재 www.edwith.org [LECTURE] 6.3. Occam's Razor : edwith - 신승재 www.edwith.org [LECTURE] 6.4. Cross Validation : edwith - 신승재 www.edwith.org [LECTURE] 6.5. Performance Metrics : edwith - 신승재 www.edwith.org [LECTURE] 6.6. Definition of Regularization : edwith - 신승재 www.edwith.org.. 2021. 3. 29.
04 정규화 (Normalization) 3 - 2정규형 후보 식별자 속성과 일반 속성 간의 종속성에 의해 수행된다. 릴레이션의 모든 속성이 후보 식별자 전체에 종속적이면 2정규형이다. 모든 비식별자 속성은 후보 식별자 속성에 완전 함수 종속(Fully Functional Dependency)돼야 한다. 부분 함수 종속으로 말미암아 발생한 중복 데이터를 제거하는 것이 2정규화다. 만약 일반 속성 중에 후보 식별자 전체에 종속적이지 않고 후보 식별자를 구성하는 속성 일부에 종속(Partial Functional Dependency)적인 속성이 있다면 중복이 발생했으므로 그 속성을 릴레이션에서 분리해야 2정규형이 된다. 위 그림에서 C속성은 후보 식별자(주 식별자)의 일부분인 B속성에만 종속돼 부분 함수 종속(Partial Functional Depe.. 2019. 9. 30.