본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)

by manga0713 2021. 5. 28.

- Subword Tokens & Segmentation

 

[ Subword Tokens or Units ]

 

  • OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음
  • BPE(Byte Pair Encoding)
  • Wordpiece Model
  • Unigram Language Model Tokenizer

 

1. BPE(Byte Pair Encoding)

 

[ Byte Pair Encoding ]

 

- BPE의 글자 압축(병합) 방식

 

[ BPE for Predicting Changes in Protein Stability upon Single Point Mutation ]

 

2. 자연어 처리에서의 BPE(Byte Pair Encoding)

 

 

3. 코드 실습하기

 

 

nlp_1401_byte_pair_encoding_바이트_페어_인코딩.ipynb
0.01MB

 

 

- 출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE)