본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

[딥러닝을이용한 자연어 처리 입문] 1901 어텐션을 이용한 텍스트 요약(Text Summarization with Attention mechanism)

by manga0713 2021. 6. 4.

[ 이미지 출처 : https://github.com/ElmiraGhorbani/Abstract-Text-Summarization ]

 

 

1. 텍스트 요약(Text Summarization)

 

- 추출적 요약(extractive summarization)

- 추상적 요약(abstractive summarization)

 

1) 추출적 요약(extractive summarization)

 

- 원문에서 중요한 핵심 문장 또는 단어구를 몇 개 뽑아서 이들로 구성된 요약문을 만드는 방법

 

- 따라서 요약문의 문장이나 단어구들은 전부 원문에 있는 문장들

 

2) 추상적 요약(abstractive summarization)

 

- 원문에 없던 문장이라도 핵심 문맥을 반영한 새로운 문장을 생성해서 원문을 요약하는 방법

 

- 마치 사람이 요약하는 것 같은 방식

 

- 인공 신경망으로 훈련하기 위해서는 '원문' 뿐만 아니라 '실제 요약문'이라는 레이블 데이터가 있어야 함

 

 

2. 아마존 리뷰 데이터에 대한 이해

 

- 대상 데이터 : 아마존 리뷰 데이터

 

 

1) 데이터 로드 하기

 

 

2) 데이터 정제하기

 

 

3) 데이터의 분리

 

 

4) 정수 인코딩

 

 

5) 빈 샘플(empty samples) 제거

 

 

6) 패딩하기

 

 

 

3. seq2seq + attention으로 요약 모델 설계 및 훈련시키기

 

 

4. seq2seq + attention으로 요약 모델 테스트하기

 

 

 

 

nlp_1901_text_summarization_with_attention.ipynb
0.04MB

 

- [딥러닝을이용한 자연어 처리 입문] 1901 어텐션을 이용한 텍스트 요약(Text Summarization with Attention mechanism)