본문 바로가기

IT 와 Social 이야기/NLP 자연어처리168

[딥러닝을이용한 자연어 처리 입문] 1902 문장 임베딩 기반 텍스트 랭크(TextRank Based on Sentence Embedding) 1. 텍스트랭크(TextRank) - 페이지랭크를 기반으로 한 텍스트 요약 알고리즘 - 그래프의 노드들은 문장들이며, 각 간선의 가중치는 문장들 간의 유사도를 의미 2. 사전 훈련된 임베딩(Pre-trained Embedding) 3. 문장 임베딩(Sentence Embedding) 4. 텍스트 랭크를 이용한 텍스트 요약 - [딥러닝을이용한 자연어 처리 입문] 1902 문장 임베딩 기반 텍스트 랭크(TextRank Based on Sentence Embedding) 2021. 6. 5.
[딥러닝을이용한 자연어 처리 입문] 1901 어텐션을 이용한 텍스트 요약(Text Summarization with Attention mechanism) 1. 텍스트 요약(Text Summarization) - 추출적 요약(extractive summarization) - 추상적 요약(abstractive summarization) 1) 추출적 요약(extractive summarization) - 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법 - 따라서 요약문의 문장이나 단어구들은 전부 원문에 있는 문장들 2) 추상적 요약(abstractive summarization) - 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법 - 마치 사람이 요약하는 것 같은 방식 - 인공 신경망으로 훈련하기 위해서는 '원문' 뿐만 아니라 '실제 요약문'이라는 레이블 데이터가 있어야 함 2... 2021. 6. 4.
[딥러닝을이용한 자연어 처리 입문] 1803 코랩(Colab)에서 TPU 사용하기 1. 코랩(Colab)에서 TPU를 선택 - Colab에서 런타임 > 런타임 유형 변경 > 하드웨어 가속기에서 'TPU' 선택 2. TPU 초기화 - 딥 러닝 모델을 정의하기 전에 아래의 설정을 미리 해주어야 함 3. TPU Strategy 셋팅 - tf.distribute.Strategy는 훈련을 여러 GPU 또는 여러 장비, 여러 TPU로 나누어 처리하기 위한 텐서플로 API로서 이 API를 사용하면 기존의 모델이나 훈련 코드를 분산처리를 할 수 있음 4. 딥 러닝 모델의 정의 - 모델 생성은 strategy.scope 내에서 이루어져야 함 - 모델을 정의하는 함수를 만들어 strategy.scope 내에서 해당 함수를 호출하여 모델을 컴파일하는 방식으로 하면 됨 - 이 후 이 모델을 fit()하게되.. 2021. 6. 4.
[딥러닝을이용한 자연어 처리 입문] 1802 버트(Bidirectional Encoder Representations from Transformers, BERT) 1. BERT의 개요 - 트랜스포머를 이용하여 구현되었으며, 위키피디아(25억 단어)와 BooksCorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련 및 파인 튜닝(Fine-tuning)된 언어 모델 2. BERT의 크기 - 기본 구조는 트랜스포머의 인코더를 쌓아올린 구조 3. BERT의 문맥을 반영한 임베딩(Contextual Embedding) - 문맥을 반영한 임베딩(Contextual Embedding)을 사용 - 하나의 단어가 모든 단어를 참고하는 연산은 BERT의 12개의 층에서 전부 이루어짐 4. BERT의 서브워드 토크나이저 : WordPiece - 단어보다 더 작은 단위로 쪼개는 서브워드 토크나이저를 사용(WordPiece 토크나이저) - 자주 등장하지 않는 단어의 경.. 2021. 6. 4.