언어 모델10 자연어 처리 강의 영상 추천 : [고현웅] Large-scale LM에 대한 얕고 넓은 지식들 (part 1) - 발표 자료 : https://github.com/jiphyeonjeon/season2/tree/main/advanced ★ 영상에서 다룬 내용들 GPT 1, 2, 3 BERT T5 Switch Transformers Message Passing MPI, NCCL, DP Ring All-reduce Horovod DDP Mesh-tensorflow Megatron-LM GPipe, PipeDream, Interleaved Scheduling 3D Parallelism Mixed Precision ZeRO, ZeRO-offload, ZeRO-infinity Deep Speed 1-Bit Adam Progressive Layer Dropping 2021. 6. 17. [딥러닝을이용한 자연어 처리 입문] 1802 버트(Bidirectional Encoder Representations from Transformers, BERT) 1. BERT의 개요 - 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련 및 파인 튜닝(Fine-tuning)된 언어 모델 2. BERT의 크기 - 기본 구조는 트랜스포머의 인코더를 쌓아올린 구조 3. BERT의 문맥을 반영한 임베딩(Contextual Embedding) - 문맥을 반영한 임베딩(Contextual Embedding)을 사용 - 하나의 단어가 모든 단어를 참고하는 연산은 BERT의 12개의 층에서 전부 이루어짐 4. BERT의 서브워드 토크나이저 : WordPiece - 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용(WordPiece 토크나이저) - 자주 등장하지 않는 단어의 경.. 2021. 6. 4. [딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model, ELMo) 1. ELMo(Embeddings from Language Model) - 같은 표기의 단어라도 문맥에 따라서 다르게 워드 임베딩(Contextualized Word Embedding)을 할 수 있는 모델 2. biLM(Bidirectional Language Model)의 사전 훈련 - 순방향 언어모델과 역방향 언어모델이 각각의 은닉 상태만을 다음 은닉층으로 보내며 훈련시킨 후에 ELMo 표현으로 사용하기 위해서 은닉 상태를 연결(concatenate)시킴 4. ELMo 표현(represenatation, 벡터)을 사용해서 스팸 메일 분류하기 - 텐서플로우 버전을 1로 다운그레이드 필요 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1009 엘모(Embeddings from Language Model.. 2021. 5. 22. [딥러닝을이용한 자연어 처리 입문] 0810 피드 포워드 신경망 언어 모델(Neural Network Language Model, NNLM) 1. 기존 N-gram 언어 모델의 한계 - 언어 모델은 충분한 데이터를 관측하지 못하면 언어를 정확히 모델링하지 못하는 희소 문제(sparsity problem)가 있음 2. 단어의 의미적 유사성 - 희소 문제는 기계가 단어 간 유사도를 알수 있다면 해결할 수 있는 문제임 - 언어 모델이 단어의 유사도를 학습할 수 있도록 설계한다면, 훈련 코퍼스에 없는 단어 시퀀스에 대한 예측이라도 유사한 단어가 사용된 단어 시퀀스를 참고하여 보다 정확한 예측을 할 수 있음 - 이런 아이디어를 가지고 탄생한 언어 모델이 신경망 언어 모델 NNLM임 3. 피드 포워드 신경망 언어 모델(NNLM) - 'what will the fat cat'를 입력을 받아서 'sit'을 예측하는 일은 기계에게 실제로는 what, will.. 2021. 5. 19. 이전 1 2 3 다음