본문 바로가기

IT 와 Social 이야기6073

[딥러닝을이용한 자연어 처리 입문] 1803 코랩(Colab)에서 TPU 사용하기 1. 코랩(Colab)에서 TPU를 선택 - Colab에서 런타임 > 런타임 유형 변경 > 하드웨어 가속기에서 'TPU' 선택 2. TPU 초기화 - 딥 러닝 모델을 정의하기 전에 아래의 설정을 미리 해주어야 함 3. TPU Strategy 셋팅 - tf.distribute.Strategy는 훈련을 여러 GPU 또는 여러 장비, 여러 TPU로 나누어 처리하기 위한 텐서플로 API로서 이 API를 사용하면 기존의 모델이나 훈련 코드를 분산처리를 할 수 있음 4. 딥 러닝 모델의 정의 - 모델 생성은 strategy.scope 내에서 이루어져야 함 - 모델을 정의하는 함수를 만들어 strategy.scope 내에서 해당 함수를 호출하여 모델을 컴파일하는 방식으로 하면 됨 - 이 후 이 모델을 fit()하게되.. 2021. 6. 4.
[딥러닝을이용한 자연어 처리 입문] 1802 버트(Bidirectional Encoder Representations from Transformers, BERT) 1. BERT의 개요 - 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련 및 파인 튜닝(Fine-tuning)된 언어 모델 2. BERT의 크기 - 기본 구조는 트랜스포머의 인코더를 쌓아올린 구조 3. BERT의 문맥을 반영한 임베딩(Contextual Embedding) - 문맥을 반영한 임베딩(Contextual Embedding)을 사용 - 하나의 단어가 모든 단어를 참고하는 연산은 BERT의 12개의 층에서 전부 이루어짐 4. BERT의 서브워드 토크나이저 : WordPiece - 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용(WordPiece 토크나이저) - 자주 등장하지 않는 단어의 경.. 2021. 6. 4.
[딥러닝을이용한 자연어 처리 입문] 1801 NLP에서의 사전 훈련(Pre-training) 1. 사전 훈련된 워드 임베딩 - 워드 임베딩 방법 처음부터 학습하는 방법 이미 학습된 임베딩 벡터를 가져와 사용하는 방법 - 워드 임베딩의 단점 극복 필요 하나의 단어가 하나의 벡터값으로 맴핑되므로 문맥을 고려하지 못하여 다의어나 동음이의어를 구분하지 못하는 한계 노출 사전 훈련된 언어 모델의 적용 시작 2. 사전 훈련된 언어 모델 Word2vec ELMo GPT BERT XLNet ... - 출처 : [딥러닝을이용한 자연어 처리 입문] 1801 NLP에서의 사전 훈련(Pre-training) 2021. 6. 4.
[딥러닝을이용한 자연어 처리 입문] 1703 셀프 어텐션을 이용한 텍스트 분류(Multi-head Self Attention for Text Classification) - 목표 : 트랜스포머의 인코더(셀프 어텐션이라는 메커니즘을 통해 문장을 이해)를 사용하여 텍스트 분류를 수행 1. 멀티 헤드 어텐션 2. 인코더 설계하기 3. 포지션 임베딩 4. 데이터 로드 및 전처리 5. 트랜스포머를 이용한 IMDB 리뷰 분류 - 출처 : [딥러닝을이용한 자연어 처리 입문] 1703 셀프 어텐션을 이용한 텍스트 분류(Multi-head Self Attention for Text Classification) 2021. 6. 3.