1. Sentencepiece
- 논문 : https://arxiv.org/pdf/1808.06226.pdf
- 센텐스피스 깃허브 : https://github.com/google/sentencepiece
2. IMDB 리뷰 토큰화하기
3. 네이버 영화 리뷰 토큰화하기
'IT 와 Social 이야기 > NLP 자연어처리' 카테고리의 다른 글
[딥러닝을이용한 자연어 처리 입문] 1501 시퀀스-투-시퀀스(Sequence-to-Sequence, seq2seq) (0) | 2021.06.01 |
---|---|
[딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) (0) | 2021.05.28 |
[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) (0) | 2021.05.28 |
[딥러닝을이용한 자연어 처리 입문] 1305 양방향 LSTM을 이용한 개체명 인식(Named Entity Recognition using Bi-LSTM) (0) | 2021.05.27 |
[딥러닝을이용한 자연어 처리 입문] 1304 개체명 인식의 BIO 표현 이해하기 (0) | 2021.05.27 |