본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 1004 네거티브 샘플링을 이용한 Word2Vec 구현(Skip-Gram with Negative Sampling, SGNS)

by manga0713 2021. 5. 21.

1. 네거티브 샘플링(Negative Sampling)

 

- Word2Vec의 진행 과정 중에서 만약 현재 집중하고 있는 중심 단어와 주변 단어가 '강아지'와 '고양이', '귀여운'과 같은 단어라면, 사실 이 단어들과 별 연관 관계가 없는 '돈가스'나 '컴퓨터'와 같은 수많은 단어의 임베딩 벡터값까지 업데이트하는 것은 비효율적임

 

- 네거티브 샘플링은 Word2Vec이 학습 과정에서 전체 단어 집합이 아니라 일부 단어 집합에만 집중할 수 있도록 하는 방법

 

- Word2Vec보다 훨씬 연산량에서 효율적

 

 

 

3. 20뉴스그룹 데이터 전처리 하기

 

 

4. 네거티브 샘플링을 통한 데이터셋 구성하기

 

 

5. Skip-Gram with Negative Sampling(SGNS) 구현하기

 

 

6. 결과 확인하기

 

 

nlp_1004_skip_gram_with_negative_sampling_네거티브_샘플링.ipynb
0.01MB

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 1004 네거티브 샘플링을 이용한 Word2Vec 구현(Skip-Gram with Negative Sampling, SGNS)