본문 바로가기
IT 와 Social 이야기/NLP 자연어처리

자연어 처리 논문 리뷰 : [나동빈] 딥러닝 기반의 최신 언어 모델(GPT)의 개인정보 유출 문제: Extracting Training Data from Large Language Models

by manga0713 2021. 6. 30.

 

 

 

● 리뷰하신 나동빈님의 설명 요약

 

- 오늘 영상에서 다루는 논문은 GPT-2처럼 큰 언어 모델(large language model)에서 학습 데이터(training data)를 추출하는 공격 방법을 제안합니다.

 

- 본 논문은 2020년 12월에 출간되었으며, 다양한 AI 서비스에서 널리 쓰이고 있는 "학습된 GPT-2 네트워크로부터 해당 네트워크가 학습 당시에 사용했던 개인정보가 포함된 학습 데이터"를 추출하는 것이 가능함을 보였습니다.

 

- 본 논문에서 제안한 메서드는 언어 모델을 기반으로 하는 서비스가 배포되기 전에, 모델의 취약점을 분석하기 위한 목적으로 효과적으로 사용될 수 있습니다.

 

 

● 학습 기대 효과

 

① 딥러닝 기반의 큰 언어 모델에 대한 개인정보 추출 공격 방법을 이해할 수 있습니다.

② 언어 모델 AI 서비스를 운영하는 입장에서 개인정보를 보호하기 위한 대응책을 이해할 수 있습니다.

 

 

논문 링크: https://arxiv.org/abs/2012.07805

 

Extracting Training Data from Large Language Models

It has become common to publish large (billion parameter) language models that have been trained on private datasets. This paper demonstrates that in such settings, an adversary can perform a training data extraction attack to recover individual training e

arxiv.org