본문 바로가기

파이썬406

[딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 1. 영어 Word2Vec 만들기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1003 영어/한국어 Word2Vec 실습 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1002 워드투벡터(Word2Vec) 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 대표적인 방법 2. 분산 표현(Distributed Representation) - 단어의 '의미'를 다차원 공간에 벡터화하는 방법 - '비슷한 위치에 등장하는 단어들은 비슷한 의미를 가진다'라는 분포 가설(distributional hypothesis) 기반 - 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원 - 두 가지 방식이 있음 CBOW : 주변에 있는 단어들을 가지고 중간에 있는 단어들을 예측하는 방법 kip-Gram : 중간에 있는 단어들을 가지고 주변에 있는 단어들을 예측하는 방법 3. CBOW(Continuous Bag of Words) - 중심 단어(center .. 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 1001 워드 임베딩(Word Embedding) 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환 함 1. 희소 표현(Sparse Representation) - 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법(ex: one-hot vector) - 단어 집합이 클수록 고차원의 벡터가 됨(공간적 낭비) - 단어의 의미를 담지 못함 2. 밀집 표현(Dense Representation) - 사용자가 설정한 값으로 모든 단어의 벡터 차원을 맞춤 - 설정된 차원은 실수값으로 채워짐 3. 워드 임베딩(Word Embedding) - 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법(embedding vector) - 방법론 : LSA, Word2Vec, FastText,.. 2021. 5. 21.
[딥러닝을이용한 자연어 처리 입문] 0907 글자 단위 RNN(Char RNN) 1. 글자 단위 RNN 언어 모델(Char RNNLM) - 입출력의 단위를 단어 레벨(word-level)에서 글자 레벨(character-level)로 변경한 것 - 대상 데이터 다운로드 : http://www.gutenberg.org/files/11/11-0.txt (이상한 나라의 앨리스) 2. 글자 단위 RNN(Char RNN)으로 텍스트 생성하기 - 다 대 일(many-to-many) 구조로 학습시키고, 텍스트 생성 - 출처 : [딥러닝을이용한 자연어 처리 입문] 0907 글자 단위 RNN(Char RNN) 2021. 5. 20.