본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency)

by manga0713 2021. 5. 17.

1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency)

 

- 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

- 우선 DTM을 만든 후, TF-IDF 가중치를 부여

- 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음

 

- TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수)

 

  • tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
  • df(t) : 특정 단어 t가 등장한 문서의 수
  • idf(d, t) : log(n/1+df(t))

- 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단

- TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것

 

2. 파이썬으로 TF-IDF 직접 구현하기

 

 

nlp_0404_tfidf.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF  (Term Frequency-Inverse Document Frequency)