본문 바로가기

자연어 처리116

[딥러닝을이용한 자연어 처리 입문] 1102 스팸 메일 분류하기(Spam Detection) - 데이터 : 캐글에서 제공하는 정상 메일과 스팸 메일이 섞여져 있는 스팸 메일 데이터 - 분류방식 : 바닐라 RNN(Vanilla RNN) - 출처 : [딥러닝을이용한 자연어 처리 입문] 1102 스팸 메일 분류하기(Spam Detection) 2021. 5. 24.
[딥러닝을이용한 자연어 처리 입문] 1011 문서 벡터를 이용한 추천 시스템(Recommendation System using Document Embedding) 문서 내 각 단어들을 Word2Vec을 통해 단어 벡터로 변환하고, 이들의 평균으로 문서 벡터를 구하여 선호하는 도서와 유사한 도서를 찾아주는 도서 추천 시스템 만들기 - 데이터 다운로드 링크 : https://drive.google.com/file/d/15Q7DZ7xrJsI2Hji-WbkU9j1mwnODBd5A/view?usp=sharing 책의 이미지와(표지) 줄거리를 크롤링한 데이터 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1011 문서 벡터를 이용한 추천 시스템(Recommendation System using Document Embedding) 2021. 5. 24.
[딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model, ELMo) 1. ELMo(Embeddings from Language Model) - 같은 표기의 단어라도 문맥에 따라서 다르게 워드 임베딩(Contextualized Word Embedding)을 할 수 있는 모델 2. biLM(Bidirectional Language Model)의 사전 훈련 - 순방향 언어모델과 역방향 언어모델이 각각의 은닉 상태만을 다음 은닉층으로 보내며 훈련시킨 후에 ELMo 표현으로 사용하기 위해서 은닉 상태를 연결(concatenate)시킴 4. ELMo 표현(represenatation, 벡터)을 사용해서 스팸 메일 분류하기 - 텐서플로우 버전을 1로 다운그레이드 필요 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model.. 2021. 5. 22.
[딥러닝을이용한 자연어 처리 입문] 1008 사전 훈련된 워드 임베딩(Pre-trained Word Embedding) 1. 케라스 임베딩 층(Keras Embedding layer) 1) 임베딩 층은 룩업 테이블이다 - 임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 함(어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터) - 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됨 2) 임베딩 층 사용하기 - 문장의 긍, 부정을 판단하는 감성 분류 모델 만들기 2. 사전 훈련된 워드 임베딩(Pre-Trained Word Embedding) 사용하기 - 훈련 데이터가 적은 상황이라면 모델에 케라스의 Embedding()을 사용하는 것보다 다른 텍스트 데이터로 사전 훈련되어 있는 임베딩 벡터를 불러오는 것이 나은.. 2021. 5. 22.