본문 바로가기

파이썬406

[딥러닝을이용한 자연어 처리 입문] 1501 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) 1. 시퀀스-투-시퀀스(Sequence-to-Sequence) - 인코더와 디코더로 구성(두 개의 RNN 셀) - 입력 시퀀스와 출력 시퀀스의 길이가 다를 수 있다고 가정 ① 인코더(Encoder) 입력 문장을 받는 RNN 셀 모든 단어들을 순차적으로 받아 모든 단어 정보들을 압축하여 하나의 벡터 생성(context vector) context vector를 디코더(Decoder)로 전송, 이 벡터는 디코더 RNN 셀의 첫 번째 시점의 은닉 상태로 사용 됨 성능 문제로 바닐라 RNN이 아닌 LSTM 셀 또는 GRU 셀로 구성 ② 디코더(Decoder) RNNLM(RNN Language Model)로서 context vector를 받아 번역된 단어를 한 개씩 순차적으로 출력하는 RNN 셀 다음에 올 단어를.. 2021. 6. 1.
[딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 1. IMDB 리뷰 토큰화하기 2. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 2021. 5. 28.
[딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 1. Sentencepiece - 논문 : https://arxiv.org/pdf/1808.06226.pdf - 센텐스피스 깃허브 : https://github.com/google/sentencepiece 2. IMDB 리뷰 토큰화하기 3. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 2021. 5. 28.
[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) - Subword Tokens & Segmentation OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음 BPE(Byte Pair Encoding) Wordpiece Model Unigram Language Model Tokenizer 1. BPE(Byte Pair Encoding) - BPE의 글자 압축(병합) 방식 2. 자연어 처리에서의 BPE(Byte Pair Encoding) 3. 코드 실습하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) 2021. 5. 28.