본문 바로가기

토큰화3

[딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 1. Sentencepiece - 논문 : https://arxiv.org/pdf/1808.06226.pdf - 센텐스피스 깃허브 : https://github.com/google/sentencepiece 2. IMDB 리뷰 토큰화하기 3. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 2021. 5. 28.
[딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) - Subword Tokens & Segmentation OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음 BPE(Byte Pair Encoding) Wordpiece Model Unigram Language Model Tokenizer 1. BPE(Byte Pair Encoding) - BPE의 글자 압축(병합) 방식 2. 자연어 처리에서의 BPE(Byte Pair Encoding) 3. 코드 실습하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) 2021. 5. 28.
[딥러닝을이용한 자연어 처리 입문] 0201 토큰화 Tokenization 1. 단어 토큰화(Word Tokenization) - 토큰의 기준이 단어(word). 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 함 - 구두점이나 특수문자를 전부 제거하면 토큰이 의미를 잃어버리는 경우가 발생하기도 함 - 영어와 달리 한국어는 띄어쓰기만으로는 단어 토큰을 구분하기 어려움 2. 토큰화 중 생기는 선택의 순간 - 영어권 언어에서 아포스트로피를(')가 들어가있는 단어는 어떻게 토큰으로 분류해야할까 3. 토큰화에서 고려해야 할 사항 - 구두점이나 특수 문자를 단순 제외해서는 안 된다. - 줄임말과 단어 내에 띄어쓰기가 있는 경우 - 표준 토큰화 예제(Penn Treebank Tokenization의 규칙) 하이푼으로 구성된 단어는 하나로 유지 does.. 2021. 5. 15.