IT 와 Social 이야기6073 [딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 1. IMDB 리뷰 토큰화하기 2. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1403 서브워드텍스트인코더 (SubwordTextEncoder) 2021. 5. 28. [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 1. Sentencepiece - 논문 : https://arxiv.org/pdf/1808.06226.pdf - 센텐스피스 깃허브 : https://github.com/google/sentencepiece 2. IMDB 리뷰 토큰화하기 3. 네이버 영화 리뷰 토큰화하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1402 센텐트피스(SentencePiece) 2021. 5. 28. [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) - Subword Tokens & Segmentation OOV, 희귀 단어, 신조어와 같은 문제를 완화시킬 수 있음 BPE(Byte Pair Encoding) Wordpiece Model Unigram Language Model Tokenizer 1. BPE(Byte Pair Encoding) - BPE의 글자 압축(병합) 방식 2. 자연어 처리에서의 BPE(Byte Pair Encoding) 3. 코드 실습하기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1401 바이트 페어 인코딩(Byte Pair Encoding, BPE) 2021. 5. 28. [딥러닝을이용한 자연어 처리 입문] 1305 양방향 LSTM을 이용한 개체명 인식(Named Entity Recognition using Bi-LSTM) 1. 환경 설정 필요 2. 개체명 인식 데이터에 대한 이해와 전처리 - 데이터 다운로드 : https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus 3. F1-Score - 정밀도와 재현률로부터 조화 평균(harmonic mean)을 구한 것 4. F1-score를 측정하는 콜백 클래스 5. BiLSTM을 이용한 개체명 인식기 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1305 양방향 LSTM을 이용한 개체명 인식(Named Entity Recognition using Bi-LSTM) 2021. 5. 27. 이전 1 ··· 21 22 23 24 25 26 27 ··· 1519 다음