잠재 디리클레 할당2 [딥러닝을이용한 자연어 처리 입문] 0603 잠재 디리클레 할당(LDA) 실습2 ○ 실습 대상 데이터 - 약 15년 동안 발행되었던 뉴스 기사 제목을 모아놓은 영어 데이터(https://www.kaggle.com/therohk/million-headlines) ○ 텍스트 전처리 ○ TF-IDF 행렬 만들기 ○ 토픽 모델링 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0603 잠재 디리클레 할당(LDA) 실습2 2021. 5. 17. [딥러닝을이용한 자연어 처리 입문] 0602 잠재 디리클레 할당 Latent Dirichlet Allocation, LDA 1. 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 개요 - 문서의 집합으로부터 어떤 토픽이 존재하는지를 알아내기 위한 알고리즘 - 단어의 순서는 신경쓰지 않음 - LDA 와 LSA의 차이 LSA : DTM을 차원 축소 하여 축소 차원에서 근접 단어들을 토픽으로 묶는다. LDA : 단어가 특정 토픽에 존재할 확률과 문서에 특정 토픽이 존재할 확률을 결합확률로 추정하여 토픽을 추출한다. - 출처 : [딥러닝을이용한 자연어 처리 입문] 0602 잠재 디리클레 할당 Latent Dirichlet Allocation, LDA 2021. 5. 17. 이전 1 다음