본문 바로가기

자연어 처리116

[딥러닝을이용한 자연어 처리 입문] 0603 잠재 디리클레 할당(LDA) 실습2 ○ 실습 대상 데이터 - 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터(https://www.kaggle.com/therohk/million-headlines) ○ 텍스트 전처리 ○ TF-IDF 행렬 만들기 ○ 토픽 모델링 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0603 잠재 디리클레 할당(LDA) 실습2 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0602 잠재 디리클레 할당 Latent Dirichlet Allocation, LDA 1. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 개요 - 문서의 집합으로부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘 - 단어의 순서는 신경쓰지 않음 - LDA 와 LSA의 차이 LSA : DTM을 차원 축소 하여 축소 차원에서 근접 단어들을 토픽으로 묶는다. LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다. - 출처 : [딥러닝을이용한 자연어 처리 입문] 0602 잠재 디리클레 할당 Latent Dirichlet Allocation, LDA 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0601 잠재 의미 분석 Latent Semantic Analysis, LSA ○ 토픽(Topic) : 주제 ○ 토픽 모델링(Topic Modeling) - 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 - 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 1. 잠재 의미 분석(Latent Semantic Analysis, LSA) - BoW에 기반한 DTM이나 TF-IDF의 단어의 의미를 고려하지 못하는 단점에 대한 대안으로 DTM의 잠재된 의미를 이끌어내는 방법으로 - 토픽 모델링을 위해 최적화 된 알고리즘은 아니지만, 토픽 모델링이라는 분야에 아이디어를 제공한 알고리즘 - SVD의 특성상 이미 계산된 LSA에 새로운 데이터를 추가하여 계산하려고하면 보통 처음부터 다시 계산해야 함. 즉 새로운 정보에 대해 업데이트가 어려움 - 출처 : [딥러.. 2021. 5. 17.
[딥러닝을이용한 자연어 처리 입문] 0502 여러가지 유사도 기법 1. 유클리드 거리(Euclidean distance) - 다차원 공간에서 두개의 점 p와 q가 각각 p=(p1,p2,p3,...,pn)과 q=(q1,q2,q3,...,qn)의 좌표를 가질 때 두 점 사이의 거리를 계산 - 2차원 좌표 평면에서 두 점 사이의 유클리드 거리 공식은 피타고라스의 정리를 통해 두 점 사이의 거리를 구하는 것과 동일 2. 자카드 유사도(Jaccard similarity) - 합집합에서 교집합의 비율을 구한다면 두 집합 A와 B의 유사도를 구할 수 있다는 것이 자카드 유사도(jaccard similarity)의 아이디어 - 0과 1사이의 값을 가지며, 만약 두 집합이 동일하다면 1, 두 집합의 공통 원소가 없다면 0 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0502 여러가.. 2021. 5. 17.