[딥러닝을이용한 자연어 처리 입문] 1501 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq)

1. 시퀀스-투-시퀀스(Sequence-to-Sequence)

- 인코더와 디코더로 구성(두 개의 RNN 셀)

- 입력 시퀀스와 출력 시퀀스의 길이가 다를 수 있다고 가정

① 인코더(Encoder)

② 디코더(Decoder)

RNNLM(RNN Language Model)로서 context vector를 받아 번역된 단어를 한 개씩 순차적으로 출력하는 RNN 셀
다음에 올 단어를 예측하고, 그 예측한 단어를 다음 시점의 RNN 셀의 입력으로 넣는 행위를 반복(시작 심볼 <sos>부터 끝을 나타내는 심볼 <eos>가 올때까지)

- 훈련 과정과 테스트 과정의 작동 방식이 조금 다름

- 입력된 시퀀스로부터 다른 도메인의 시퀀스를 출력하는 다양한 분야에서 사용되는 모델

2. 글자 레벨 기계 번역기(Character-Level Neural Machine Translation) 구현하기

- 훈련 데이터로 두 개 이상의 언어가 병렬로 구성된 병렬 코퍼스(parallel corpus) 필요

- 프랑스 vs. 영어 병렬 코퍼스 다운로드 링크 : http://www.manythings.org/anki

1) 병렬 코퍼스 데이터에 대한 이해와 전처리

2) 교사 강요(Teacher forcing)

- RNN의 모든 시점에 대해서 이전 시점의 예측값 대신 실제값을 입력으로 주는 방법

3) seq2seq 기계 번역기 훈련시키기

4) seq2seq 기계 번역기 동작시키기

[딥러닝을이용한 자연어 처리 입문] 1503 BLEU Score(Bilingual Evaluation Understudy Score) (0)	2021.06.02
[딥러닝을이용한 자연어 처리 입문] 1502 Word-Level 번역기 만들기(Neural Machine Translation (seq2seq) Tutorial) (0)	2021.06.01
[딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) (0)	2021.05.28
[딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) (0)	2021.05.28
[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) (0)	2021.05.28

망가천재의 스토리텔링