IT 와 Social 이야기/NLP 자연어처리168 [딥러닝을이용한 자연어 처리 입문] 1011 문서 벡터를 이용한 추천 시스템(Recommendation System using Document Embedding) 문서 내 각 단어들을 Word2Vec을 통해 단어 벡터로 변환하고, 이들의 평균으로 문서 벡터를 구하여 선호하는 도서와 유사한 도서를 찾아주는 도서 추천 시스템 만들기 - 데이터 다운로드 링크 : https://drive.google.com/file/d/15Q7DZ7xrJsI2Hji-WbkU9j1mwnODBd5A/view?usp=sharing 책의 이미지와(표지) 줄거리를 크롤링한 데이터 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1011 문서 벡터를 이용한 추천 시스템(Recommendation System using Document Embedding) 2021. 5. 24. [딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model, ELMo) 1. ELMo(Embeddings from Language Model) - 같은 표기의 단어라도 문맥에 따라서 다르게 워드 임베딩(Contextualized Word Embedding)을 할 수 있는 모델 2. biLM(Bidirectional Language Model)의 사전 훈련 - 순방향 언어모델과 역방향 언어모델이 각각의 은닉 상태만을 다음 은닉층으로 보내며 훈련시킨 후에 ELMo 표현으로 사용하기 위해서 은닉 상태를 연결(concatenate)시킴 4. ELMo 표현(represenatation, 벡터)을 사용해서 스팸 메일 분류하기 - 텐서플로우 버전을 1로 다운그레이드 필요 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model.. 2021. 5. 22. [딥러닝을이용한 자연어 처리 입문] 1008 사전 훈련된 워드 임베딩(Pre-trained Word Embedding) 1. 케라스 임베딩 층(Keras Embedding layer) 1) 임베딩 층은 룩업 테이블이다 - 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 함(어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터) - 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됨 2) 임베딩 층 사용하기 - 문장의 긍, 부정을 판단하는 감성 분류 모델 만들기 2. 사전 훈련된 워드 임베딩(Pre-Trained Word Embedding) 사용하기 - 훈련 데이터가 적은 상황이라면 모델에 케라스의 Embedding()을 사용하는 것보다 다른 텍스트 데이터로 사전 훈련되어 있는 임베딩 벡터를 불러오는 것이 나은.. 2021. 5. 22. [딥러닝을이용한 자연어 처리 입문] 1006 패스트텍스트(FastText) FastText는 하나의 단어 안에도 여러 단어들이 존재하는 것(각 단어를 글자 단위 n-gram의 구성으로 취급)으로 간주함. 즉 내부 단어(subword)를 고려하여 학습을 진행 1. 내부 단어(subword)의 학습 - n-gram의 n을 3으로 잡은 경우 apple , : (끝), (특별 토큰) - 내부 단어들을 벡터화한다는 의미는 저 단어들에 대해서 Word2Vec을 수행한다는 의미 2. 모르는 단어(Out Of Vocabulary, OOV)에 대한 대응 - 학습 후 모든 데이터 셋의 모든 단어의 각 n-gram에 대해 워드 임베딩이 되므로 데이터 셋만 충분하다면 내부단어를 통해 OOV에 대해서도 다른 단어와의 유사도를 계산할 수 있음 3. 단어 집합 내 빈도 수가 적었던 단어(Rare Word.. 2021. 5. 21. 이전 1 ··· 9 10 11 12 13 14 15 ··· 42 다음