1. 규칙에 기반한 표기가 다른 단어들의 통합
- 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법
2. 대, 소문자 통합
- 대, 소문자를 통합하는 것은 단어의 개수를 줄일 수 있는 또 다른 정규화 방법 (주로 대 --> 소)
- 대문자와 소문자가 구분되어야 하는 경우도 있기 때문에 대문자와 소문자를 무작정 통합해서는 안 됨
3. 불필요한 단어의 제거(Removing Unnecessary Words)
- 불필요한 단어(noise data) : 자연어가 아니면서 아무 의미도 갖지 않는 글자들, 분석하고자 하는 목적에 맞지 않는 불필요 단어들
- 등장 빈도가 적은 단어(Removing Rare words)
- 길이가 짧은 단어(Removing words with very a short length) : 한국어에서는 길이가 짧은 단어라고 삭제하는 방법이 크게 유효하지 않을 수 있음
4. 정규 표현식(Regular Expression)
- 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용
- 출처 : [딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding (0) | 2021.05.15 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression (0) | 2021.05.15 |
[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization (0) | 2021.05.15 |
[딥러닝을이용한 자연어 처리 입문] 02. 텍스트 전처리 Text preprocessing (0) | 2021.05.15 |
[딥러닝논문읽기모임] Extracting Training Data from Large Language Models - 자연어처리 팀: 김은희, 박희수, 신동진 (0) | 2021.04.14 |