본문 바로가기

텍스트 전처리9

[딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding 1. 정수 인코딩(Integer Encoding) 단어에 고유한 정수 또는 인덱스를 부여할 때 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary)를 만들고, 빈도가 높은 순서대로 차례로 낮은 숫자부터 부여하는 방법 1) dictionary 사용하기 2) Counter 사용하기 3) NLTK의 FreqDist 사용하기 4) enumerate 이해하기 enumerate()는 순서가 있는 자료형(list, set, tuple, dictionary, string)을 입력으로 받아 인덱스를 순차적으로 함께 리턴 2. 케라스(keras)의 텍스트 전처리 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0206 정수 인코딩 Integer Encoding 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0205 정규 표현식 Regular Expression 1. 정규 표현식 문법과 모듈 함수 1) re 정규 표현식 문법 특수문자 설명 . 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외) ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개) * 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) + 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상) ^ 뒤의 문자로 문자열이 시작됩니다. $ 앞의 문자로 문자열이 끝납니다. {숫자} 숫자만큼 반복합니다. {숫자1, 숫자2} 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다. {숫자,} 숫자 이상만큼 반복합니다. [ ] 대괄호 안의 문자들 중 한 개의 문자와 매치합니다... 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0204 불용어 Stopword ○ 불용어(Stopword) - I, my, me, over, 조사, 접미사 같은 단어들과 같이 문장에서는 자주 등장하지만 실제 의미 분석에 큰 도움이 되지 않는 단어들 - NLTK 등의 패키지에서는 미리 정의 - 직접 정의하여 사용할 수도 있음 1. NLTK에서 불용어 확인하기 2. NLTK를 통해서 불용어 제거하기 3. 한국어에서 불용어 제거하기 - 불용어 정의 후 제거 - 출처 : 2021. 5. 15.
[딥러닝을이용한 자연어 처리 입문] 0203 어간 추출 stemming 과 표제어 추출 Lemmatization 1. 표제어 추출(Lemmatization) - Lemma는 '표제어' 또는 '기본 사전형 단어' 정도의 의미 - 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단 - 가장 섬세한 방법은 단어의 형태학적 파싱(형태소 분석)을 먼저 진행하는 것 어간(stem) : 단어의 의미를 담고 있는 핵심 부분 접사(affix) : 단어에 추가적인 의미를 주는 부분 ** 표제어 추출은 해당 단어의 품사 정보를 보존, 어간 추출은 해당 단어의 품사 정보가 보존 되지 않음 2. 어간 추출(Stemming) - 어간 추출은 형태학적 분석을 단순화한 버전이라고 볼 수도 있고, 정해진 규칙만 보고 단어의 어미를 자르는 어림짐작의 작업이라고 볼 수도 있으므로 이 작업은 섬세한 작업이 .. 2021. 5. 15.