본문 바로가기

자연어 처리116

[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression 1. 정규 표현식 문법과 모듈 함수 1) re 정규 표현식 문법 특수문자 설명 . 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외) ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개) * 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) + 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상) ^ 뒤의 문자로 문자열이 시작됩니다. $ 앞의 문자로 문자열이 끝납니다. {숫자} 숫자만큼 반복합니다. {숫자1, 숫자2} 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다. {숫자,} 숫자 이상만큼 반복합니다. [ ] 대괄호 안의 문자들 중 한 개의 문자와 매치합니다... 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0204 불용어 Stopword ○ 불용어(Stopword) - I, my, me, over, 조사, 접미사 같은 단어들과 같이 문장에서는 자주 등장하지만 실제 의미 분석에 큰 도움이 되지 않는 단어들 - NLTK 등의 패키지에서는 미리 정의 - 직접 정의하여 사용할 수도 있음 1. NLTK에서 불용어 확인하기 2. NLTK를 통해서 불용어 제거하기 3. 한국어에서 불용어 제거하기 - 불용어 정의 후 제거 - 출처 : 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization 1. 표제어 추출(Lemmatization) - Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미 - 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단 - 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것 어간(stem) : 단어의 의미를 담고 있는 핵심 부분 접사(affix) : 단어에 추가적인 의미를 주는 부분 ** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음 2. 어간 추출(Stemming) - 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 .. 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0202 정제 Cleaning 와 정규화 Normalization ○ 정제 및 정규화의 목적 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 - 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 2. 대, 소문자 통합 - 대, 소문자를 통합하는 것은 단어의 개수를 줄일 수 있는 또 다른 정규화 방법 (주로 대 --> 소) - 대문자와 소문자가 구분되어야 하는 경우도 있기 때문에 대문자와 소문자를 무작정 통합해서는 안 됨 3. 불필요한 단어의 제거(Removing Unnecessary Words) - 불필요한 단어(noise data) : 자연어가 아니면서 아무 의미도 .. 2021. 5. 15.