본문 바로가기
IT 와 Social 이야기

[iitp] 딥러닝에도 보안문제, 인공지능을 속이는 수법에 주의할 필요 - 박종훈

by manga0713 2017. 11. 30.

 

 

 

 

 

*** 문서:

file218290684989176748-182405.pdf

 

 

 

 

■ 딥러닝은 데이터로부터 규칙을 도출하기 위해 신경망을 훈련시키는 과정을 거치는데, 이때 사용되는 데이터에 잘못된 것을 섞거나 데이터에 일종의 노이즈를 추가함으로써 AI에 오류를 발생시킬 수 있다는 것임

 

 

 

■ AI에 오류를 발생(AI를 공격하는)시키는 대표적인 기법

 

 

○ 적대적 사례(Adversarial Example) 기법

 

- 이미지 인식 모델에 인식 시키는 데이터(example)에 일종의 '노이즈'를 추가함으로써 이미지의 피사체를 오인시키는 공격 방법임

 

- 노이즈가 가해진 이미지를 "적대적 사례"라고 부름

 

- 악용하기가 용이하고 일상 생활에 미치는 영향이 클 수 있어 특별한 주의가 필요함

 

- 가령 자율운전 차량에 교통 표지판을 잘못 인식하게 하는 공격이 가능함

 

 

 

 

 

 

 

 

○ 교사 데이터 독살(Training Set Poisoning)

 

- 이미지 인식 모델의 개발에는 일반적으로 인간이 식별한 피사체 정보의 태그가 붙은 "교사 데이터(트레이닝 세트 Training Set)"를 사용함

 

- 이 교사 데이터에 잘못된 태그를 부여한 이미지를 섞음으로써 피사체를 잘못 인식하는 이미지 인식 모델이 만들어지도록 하는 것

 

 

 

 

 

 

 

 

 

 

■ AI에 오류를 발생(AI를 공격하는) 방어 기법

 

 

○ 구글, 클레버한스(Cleverhans)

 

- 일종의 취약점 분석 툴로서, 유사 적대적 사례 공격을 실행할 수 있는 이미지 데이터 세트로, 이미지 인식 모델을 개발하는 연구자는 클레버한스가 제공하는 이미지 데이터를 사용해 자신이 사용한 모델이 적대적 사례 공격에 취약한지 여부를 확인해 볼 수 있음

 

 

○ 스탠퍼드 대학 박사과정 아디티 라후나탄, 볼록완화(Convex Relaxations)

 

- 이미지 인식에 사용하는 신경망에 특별한 "숨겨진 레이어(음폐층)"을 추가하여 노이즈를 추가한 이미지라도 오인식을 하지 않도록 하는 것임