본문 바로가기

IT 와 Social 이야기/NLP 자연어처리168

[딥러닝을이용한 자연어 처리 입문] 1502 Word-Level 번역기 만들기(Neural Machine Translation (seq2seq) Tutorial) 1. 데이터 로드 및 전처리 2. 기계 번역기 만들기 3. seq2seq 기계 번역기 동작시키기 - [딥러닝을이용한 자연어 처리 입문] 1502 Word-Level 번역기 만들기(Neural Machine Translation (seq2seq) Tutorial) 2021. 6. 1.
[딥러닝을이용한 자연어 처리 입문] 1501 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 1. 시퀀스-투-시퀀스(Sequence-to-Sequence) - 인코더와 디코더로 구성(두 개의 RNN 셀) - 입력 시퀀스와 출력 시퀀스의 길이가 다를 수 있다고 가정 ① 인코더(Encoder) 입력 문장을 받는 RNN 셀 모든 단어들을 순차적으로 받아 모든 단어 정보들을 압축하여 하나의 벡터 생성(context vector) context vector를 디코더(Decoder)로 전송, 이 벡터는 디코더 RNN 셀의 첫 번째 시점의 은닉 상태로 사용 됨 성능 문제로 바닐라 RNN이 아닌 LSTM 셀 또는 GRU 셀로 구성 ② 디코더(Decoder) RNNLM(RNN Language Model)로서 context vector를 받아 번역된 단어를 한 개씩 순차적으로 출력하는 RNN 셀 다음에 올 단어를.. 2021. 6. 1.
[딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 1. IMDB 리뷰 토큰화하기 2. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 2021. 5. 28.
[딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 1. Sentencepiece - 논문 : https://arxiv.org/pdf/1808.06226.pdf - 센텐스피스 깃허브 : https://github.com/google/sentencepiece 2. IMDB 리뷰 토큰화하기 3. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 2021. 5. 28.