자연어 처리116 [딥러닝을이용한 자연어 처리 입문] 0501 코사인 유사도 Cosine Similarity 1. 코사인 유사도(Cosine Similarity) - 코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖음. 즉, 결국 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단 함. 이를 직관적으로 이해하면 두 벡터가 가리키는 방향이 얼마나 유사한가를 의미 함. - 문서3은 문서2에서 단지 모든 단어의 빈도수가 1씩 증가했을 뿐인데 유사도의 값이 최대(1, 두 벡터의 방향이 완전히 동일)임 - 다시 말해 한 문서 내의 모든 단어의 빈도수가 동일하게 증가하는 경우에는 기존의 문서와 코사인 유.. 2021. 5. 17. [딥러닝을이용한 자연어 처리 입문] 0404 TF-IDF (Term Frequency-Inverse Document Frequency) 1. TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) - 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법 - 우선 DTM을 만든 후, TF-IDF 가중치를 부여 - 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있음 - TF-IDF 식의 이해 (d: 문서, t: 단어, n: 문서의 총 개수) tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수 df(t) : 특정 단어 t가 등장한 문서의 수 idf(d, t) : log(n/1+df(t)) -.. 2021. 5. 17. [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 1. Bag of Words란? - 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법 - 만드는 과정 우선, 각 단어에 고유한 정수 인덱스를 부여 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터 생성 3. CountVectorizer 클래스로 BoW 만들기 4. 블용어를 제거한 BoW 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0402 Bag of Words(BoW) 2021. 5. 16. [딥러닝을이용한 자연어 처리 입문] 0301 언어 모델 Language Model이란? 1. 언어 모델(Language Model) - 단어 시퀀스(또는 문장)에 확률을 할당(assign) 해 가며 가장 자연스러운 단어 시퀀스를 찾아내는 모델 - 사용하는 방법은 언어 모델이 이전 단어들이 주어졌을 때 다음 단어를 예측 하도록 하는 것 - 주어진 양쪽의 단어들로부터 가운데 비어있는 단어를 예측 하도록 하는 것 등이 있음 2. 단어 시퀀스의 확률 할당 - 확률을 통해 보다 적절한 문장을 판단 선생님이 교실로 부리나케 P(달려갔다) > P(잘려갔다) 2021. 5. 16. 이전 1 ··· 14 15 16 17 18 19 20 ··· 29 다음