본문 바로가기

word2vec5

[딥러닝을이용한 자연어 처리 입문] 1004 네거티브 샘플링을 이용한 Word2Vec 구현(Skip-Gram with Negative Sampling, SGNS) 1. 네거티브 샘플링(Negative Sampling) - Word2Vec의 진행 과정 중에서 만약 현재 집중하고 있는 중심 단어와 주변 단어가 '강아지'와 '고양이', '귀여운'과 같은 단어라면, 사실 이 단어들과 별 연관 관계가 없는 '돈가스'나 '컴퓨터'와 같은 수많은 단어의 임베딩 벡터값까지 업데이트하는 것은 비효율적임 - 네거티브 샘플링은 Word2Vec이 학습 과정에서 전체 단어 집합이 아니라 일부 단어 집합에만 집중할 수 있도록 하는 방법 주변 단어들이 아닌 단어의 집합을 만들어 부정(negative)으로 레이블링하고 주변 단어들은 긍정(positive)으로 레이블링 한 후 두 집합간 이진 분류 문제로 변환 - Word2Vec보다 훨씬 연산량에서 효율적 3. 20뉴스그룹 데이터 전처리 하기 .. 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 1. 영어 Word2Vec 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1002 워드투벡터(Word2Vec) 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 대표적인 방법 2. 분산 표현(Distributed Representation) - 단어의 '의미'를 다차원 공간에 벡터화하는 방법 - '비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다'라는 분포 가설(distributional hypothesis) 기반 - 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원 - 두 가지 방식이 있음 CBOW : 주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법 kip-Gram : 중간에 있는 단어들을 가지고 주변에 있는 단어들을 예측하는 방법 3. CBOW(Continuous Bag of Words) - 중심 단어(center .. 2021. 5. 21.
[KoreaUniv DSBA] 강필성 교수: 05_Text_Representation_II_Distributed_Representation_Part_2_Kor Unstructured Data Analysis 05_Text_Representation_II_Distributed Representation_Part_2_Kor - Word2Vec - CBOW - Skip-gram - Gradient ascent https://github.com/pilsung-kang/text-... 2021. 3. 2.