본문 바로가기

IT 와 Social 이야기/NLP 자연어처리168

[딥러닝을이용한 자연어 처리 입문] 1005 글로브(GloVe) 글로브(Global Vectors for Word Representation, GloVe)는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 카운트 기반의 LSA(Latent Semantic Analysis)와 예측 기반의 Word2Vec의 단점을 지적하며 이를 보완한다는 목적으로 나왔고, 실제로도 Word2Vec만큼 뛰어난 성능을 보여줌 Word2Vec와 GloVe 중에서 어떤 것이 더 뛰어나다고 말할 수는 없고, 이 두 가지 전부를 사용해보고 성능이 더 좋은 것을 사용하는 것이 바람직함 2. 윈도우 기반 동시 등장 행렬(Window based Co-occurrence Matrix) - 단어의 동시 등장 행렬은 행과 열을 전체 단어 집합의 단어들로 구성하고, i 단어의 윈도우 크기(Window Si.. 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1004 네거티브 샘플링을 이용한 Word2Vec 구현(Skip-Gram with Negative Sampling, SGNS) 1. 네거티브 샘플링(Negative Sampling) - Word2Vec의 진행 과정 중에서 만약 현재 집중하고 있는 중심 단어와 주변 단어가 '강아지'와 '고양이', '귀여운'과 같은 단어라면, 사실 이 단어들과 별 연관 관계가 없는 '돈가스'나 '컴퓨터'와 같은 수많은 단어의 임베딩 벡터값까지 업데이트하는 것은 비효율적임 - 네거티브 샘플링은 Word2Vec이 학습 과정에서 전체 단어 집합이 아니라 일부 단어 집합에만 집중할 수 있도록 하는 방법 주변 단어들이 아닌 단어의 집합을 만들어 부정(negative)으로 레이블링하고 주변 단어들은 긍정(positive)으로 레이블링 한 후 두 집합간 이진 분류 문제로 변환 - Word2Vec보다 훨씬 연산량에서 효율적 3. 20뉴스그룹 데이터 전처리 하기 .. 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 1. 영어 Word2Vec 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1002 워드투벡터(Word2Vec) 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 대표적인 방법 2. 분산 표현(Distributed Representation) - 단어의 '의미'를 다차원 공간에 벡터화하는 방법 - '비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다'라는 분포 가설(distributional hypothesis) 기반 - 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원 - 두 가지 방식이 있음 CBOW : 주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법 kip-Gram : 중간에 있는 단어들을 가지고 주변에 있는 단어들을 예측하는 방법 3. CBOW(Continuous Bag of Words) - 중심 단어(center .. 2021. 5. 21.