본문 바로가기

유사도2

[딥러닝을이용한 자연어 처리 입문] 0502 여러가지 유사도 기법 1. 유클리드 거리(Euclidean distance) - 다차원 공간에서 두개의 점 p와 q가 각각 p=(p1,p2,p3,...,pn)과 q=(q1,q2,q3,...,qn)의 좌표를 가질 때 두 점 사이의 거리를 계산 - 2차원 좌표 평면에서 두 점 사이의 유클리드 거리 공식은 피타고라스의 정리를 통해 두 점 사이의 거리를 구하는 것과 동일 2. 자카드 유사도(Jaccard similarity) - 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것이 자카드 유사도(jaccard similarity)의 아이디어 - 0과 1사이의 값을 가지며, 만약 두 집합이 동일하다면 1, 두 집합의 공통 원소가 없다면 0 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0502 여러가.. 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0501 코사인 유사도 Cosine Similarity 1. 코사인 유사도(Cosine Similarity) - 코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미. 두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖음. 즉, 결국 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단 함. 이를 직관적으로 이해하면 두 벡터가 가리키는 방향이 얼마나 유사한가를 의미 함. - 문서3은 문서2에서 단지 모든 단어의 빈도수가 1씩 증가했을 뿐인데 유사도의 값이 최대(1, 두 벡터의 방향이 완전히 동일)임 - 다시 말해 한 문서 내의 모든 단어의 빈도수가 동일하게 증가하는 경우에는 기존의 문서와 코사인 유.. 2021. 5. 17.