본문 바로가기

NLP107

[딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) - 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 - 우선 DTM을 만든 후, TF-IDF 가중치를 부여 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음 - TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 df(t) : 특정 단어 t가 등장한 문서의 수 idf(d, t) : log(n/1+df(t)) -.. 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? 1. 언어 모델(Language Model) - 단어 시퀀스(또는 문장)에 확률을 할당(assign) 해 가며 가장 자연스러운 단어 시퀀스를 찾아내는 모델 - 사용하는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측 하도록 하는 것 - 주어진 양쪽의 단어들로부터 가운데 비어있는 단어를 예측 하도록 하는 것 등이 있음 2. 단어 시퀀스의 확률 할당 - 확률을 통해 보다 적절한 문장을 판단 선생님이 교실로 부리나케 P(달려갔다) > P(잘려갔다) 2021. 5. 16.
[딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text 1. PyKoSpacing 전희원님이 개발한 PyKoSpacing은 한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. 2. Py-Hanspell 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다. 3. SOYNLP를 이용한 단어 토큰화 soynlp는 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저입니다. 4. Customized KoNLPy 사용자 사전 추가가 매우 쉬운 패키지 입니다. - 출처 : [딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text 2021. 5. 16.
[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization 1. 단어 토큰화(Word Tokenization) - 토큰의 기준이 단어(word). 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 함 - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 함 - 영어와 달리 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어려움 2. 토큰화 중 생기는 선택의 순간 - 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까 3. 토큰화에서 고려해야 할 사항 - 구두점이나 특수 문자를 단순 제외해서는 안 된다. - 줄임말과 단어 내에 띄어쓰기가 있는 경우 - 표준 토큰화 예제(Penn Treebank Tokenization의 규칙) 하이푼으로 구성된 단어는 하나로 유지 does.. 2021. 5. 15.