본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization

by manga0713 2021. 5. 15.

○ 정제 및 정규화의 목적

 

1. 규칙에 기반한 표기가 다른 단어들의 통합

 

- 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법

 

2. 대, 소문자 통합

 

- 대, 소문자를 통합하는 것은 단어의 개수를 줄일 수 있는 또 다른 정규화 방법 (주로 대 --> 소)

- 대문자와 소문자가 구분되어야 하는 경우도 있기 때문에 대문자와 소문자를 무작정 통합해서는 안 됨

 

3. 불필요한 단어의 제거(Removing Unnecessary Words)

 

- 불필요한 단어(noise data) : 자연어가 아니면서 아무 의미도 갖지 않는 글자들, 분석하고자 하는 목적에 맞지 않는 불필요 단어들

 

  • 등장 빈도가 적은 단어(Removing Rare words)
  • 길이가 짧은 단어(Removing words with very a short length) : 한국어에서는 길이가 짧은 단어라고 삭제하는 방법이 크게 유효하지 않을 수 있음

4. 정규 표현식(Regular Expression)

 

- 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용

 

 

 

nlp_0202 cleaning and normalization 정제와 정규화.ipynb
0.00MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization