tfidf2 [딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) - 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 - 우선 DTM을 만든 후, TF-IDF 가중치를 부여 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음 - TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 df(t) : 특정 단어 t가 등장한 문서의 수 idf(d, t) : log(n/1+df(t)) -.. 2021. 5. 17. [KoreaUniv DSBA] 강필성 교수: 04_Text_Representation_I_Classic_Methods_Kor Unstructured Data Analysis 04_Text_Representation_I_Classic_Methods_Kor - Bag-of-Words - TF-IDF - N-Grams https://github.com/pilsung-kang/text-... 2021. 3. 1. 이전 1 다음