파이썬406 [딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) - 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 - 우선 DTM을 만든 후, TF-IDF 가중치를 부여 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음 - TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 df(t) : 특정 단어 t가 등장한 문서의 수 idf(d, t) : log(n/1+df(t)) -.. 2021. 5. 17. [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 1. Bag of Words란? - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 - 만드는 과정 우선, 각 단어에 고유한 정수 인덱스를 부여 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성 3. CountVectorizer 클래스로 BoW 만들기 4. 블용어를 제거한 BoW 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 2021. 5. 16. [딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? 1. 언어 모델(Language Model) - 단어 시퀀스(또는 문장)에 확률을 할당(assign) 해 가며 가장 자연스러운 단어 시퀀스를 찾아내는 모델 - 사용하는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측 하도록 하는 것 - 주어진 양쪽의 단어들로부터 가운데 비어있는 단어를 예측 하도록 하는 것 등이 있음 2. 단어 시퀀스의 확률 할당 - 확률을 통해 보다 적절한 문장을 판단 선생님이 교실로 부리나케 P(달려갔다) > P(잘려갔다) 2021. 5. 16. [딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text 1. PyKoSpacing 전희원님이 개발한 PyKoSpacing은 한국어 띄어쓰기 패키지로 띄어쓰기가 되어있지 않은 문장을 띄어쓰기를 한 문장으로 변환해주는 패키지입니다. 2. Py-Hanspell 네이버 한글 맞춤법 검사기를 바탕으로 만들어진 패키지입니다. 3. SOYNLP를 이용한 단어 토큰화 soynlp는 품사 태깅, 단어 토큰화 등을 지원하는 단어 토크나이저입니다. 4. Customized KoNLPy 사용자 사전 추가가 매우 쉬운 패키지 입니다. - 출처 : [딥러닝을이용한 자연어 처리 입문] 0210 한국어 전처리 패키지 Text Preprocessing Tools for Korean Text 2021. 5. 16. 이전 1 ··· 21 22 23 24 25 26 27 ··· 102 다음