본문 바로가기

IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization

by manga0713 2021. 5. 15.

○ 정제 및 정규화의 목적

1. 규칙에 기반한 표기가 다른 단어들의 통합

- 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법

2. 대, 소문자 통합

- 대, 소문자를 통합하는 것은 단어의 개수를 줄일 수 있는 또 다른 정규화 방법 (주로 대 --> 소)

- 대문자와 소문자가 구분되어야 하는 경우도 있기 때문에 대문자와 소문자를 무작정 통합해서는 안 됨

3. 불필요한 단어의 제거(Removing Unnecessary Words)

- 불필요한 단어(noise data) : 자연어가 아니면서 아무 의미도 갖지 않는 글자들, 분석하고자 하는 목적에 맞지 않는 불필요 단어들

등장 빈도가 적은 단어(Removing Rare words)
길이가 짧은 단어(Removing words with very a short length) : 한국어에서는 길이가 짧은 단어라고 삭제하는 방법이 크게 유효하지 않을 수 있음

4. 정규 표현식(Regular Expression)

- 코퍼스 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용

nlp_0202 cleaning and normalization 정제와 정규화.ipynb

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization

저작자표시

'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글

[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding (0)	2021.05.15
[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression (0)	2021.05.15
[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization (0)	2021.05.15
[딥러닝을이용한 자연어 처리 입문] 02. 텍스트 전처리 Text preprocessing (0)	2021.05.15
[딥러닝논문읽기모임] Extracting Training Data from Large Language Models - 자연어처리 팀: 김은희, 박희수, 신동진 (0)	2021.04.14

티스토리툴바