워드 임베딩2 [딥러닝을이용한 자연어 처리 입문] 1012 워드 임베딩의 평균(Average Word Embedding) - 대상 데이터 IMDB 영화 리뷰 데이터는 리뷰 텍스트에 리뷰가 긍정인 경우 1을, 부정인 경우 0으로 레이블링 한 데이터로 25,000개의 훈련 데이터와 테스트 데이터 25,000개로 구성된 데이터 - 단어 벡터들의 평균만으로 텍스트 분류를 수행시의 효율성 측정 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1012 워드 임베딩의 평균(Average Word Embedding) 2021. 5. 24. [딥러닝을이용한 자연어 처리 입문] 1001 워드 임베딩(Word Embedding) 워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 방법으로, 단어를 밀집 표현으로 변환 함 1. 희소 표현(Sparse Representation) - 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법(ex: one-hot vector) - 단어 집합이 클수록 고차원의 벡터가 됨(공간적 낭비) - 단어의 의미를 담지 못함 2. 밀집 표현(Dense Representation) - 사용자가 설정한 값으로 모든 단어의 벡터 차원을 맞춤 - 설정된 차원은 실수값으로 채워짐 3. 워드 임베딩(Word Embedding) - 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법(embedding vector) - 방법론 : LSA, Word2Vec, FastText,.. 2021. 5. 21. 이전 1 다음