본문 바로가기
IT 와 Social 이야기

[iitp] 페이크 뉴스 탐지 기술 동향과 시사점 - 윤영석, 엄태원, 안재영, 이현우, 허재두

by manga0713 2017. 10. 10.

 

 

 

*** 출처: [iitp] 페이크 뉴스 탐지 기술 동향과 시사점 - 윤영석, 엄태원, 안재영, 이현우, 허재두

*** 문서:

file4050381308305412351-181602.pdf

 

 

 

 

■ 페이크 뉴스(Fake News 가짜 뉴스) 정의

 

 

- Allcott and Gentzkow: 독자들이 오해할 고의적이고 검증 가능한 뉴스 기사

 

- 가디언지: 트래픽과 이윤을 극대화하기 위해 독자들을 속이기 위해 설계되고 만들어진 기사

 

- 국내 언론: 전체 또는 일정 부분이 사실이 아닌 정보에 근거해 만들어진 기사나 뉴스 형태

 

- 정리하면, 의도를 가지고 전체 또는 일부가 조작된 뉴스 기사

 

 

 

■ 페이크 뉴스 탐지 기법 유형

 

 

○ 비기술적 방법

 

- 전문가 기반 탐지 / 집단지성 기반 탐지

 

 

○ 기술적 방법

 

- 언어 신호 분석 / 네트워크 분석 / 하이브리드 분석

 

- 인공지능 기반 탐지 / 시맨틱 기반 탐지 / 이상 확산 패턴 감지 / 하이브리드

 

 

 

① 전문가 기반 탐지

 

- 뉴스의 진위 여부를 전문성을 가진 기자가 판단하는 방법

 

- CNN, 페이스북, 구글 등이 적용

 

 

② 집단지성 기반 탐지

 

- 페이크뉴스체커(www.fakenewschecker.com)는 가자 뉴스 판독을 위한 전문 웹사이트로 해당 뉴스에 대해 참여자들이 집단 지성을 바탕으로 "신뢰할 수 있음(trustworthy)" 지표를 평가하고 공유하는 방법을 적용

 

- 집단 지성의 오판 가능성, 참여 유인 제공의 어려움, 특별한 검증 과정이 존재하지 않는다는 점등의 한계가 있다.

 

 

③ 인공지능 기반 탐지

 

- 언어와 구문을 분석하여 과거 문제가 된 페이크 뉴스에 자주 등장한 단어와 표현을 기계에 학습시켜 페이크 뉴스일 확률을 추정하는 기법

 

- 구글은 가짜 리뷰 탐지를 위해 SVM(Super Vector Machine) 학습에 리뷰어의 행동 데이터를 결합하여 분석하는 기법을 소개한 바 있음

 

- 페이스북은 FiB를 이용하고 있음

 

- 학습된 인공지능을 이용하여 신속한 분석 결과를 얻을 수 있는 반면에 충분한 학습의 필요성, 인공지능 성능 지표에 대한 사전 정보의 부재, 판단의 정확도 문제, 정밀하게 조작된 페이크 뉴스의 진단 난해성 문제 등이 향 후 해소되어야 할 과제들이다.

 

 

④ 시맨틱 기반 탐지

 

- 제목 또는 콘텐츠에 내포된 단어, 어절, 문장, 맥락을 바탕으로 분석하여 내용의 사실성을 검증하는 기법

 

- 언어학을 토대로 "예측 가능한 기만 언어" 탐지가 주 목적

 

- 구글과 아마존이 사용중

 

- 약 91%의 예측력을 가진다고 보고되고 있지만, 첫째, 충분한 데이터가 축적되어야 분석이 가능하며, 둘째, 속성과 설명자를 연결하는 정확도가 문제가 된다.

 

 

⑤ 이상 확산 패턴 감지

 

- 확산 경로를 통해 페이크 뉴스를 감지한다는 측면에서 차별성을 가진다.

 

- 페이크 뉴스와 정상적인 정보의 확산 패턴이 다른 이유는 자극적인 페이크 뉴스는 호기심을 불러 일으키기 때문에 상대적으로 링크의 개수가 적은(친구 수가 적은) 노드가 전파하는 반면, 링크의 개수가 큰 노드는 본인의 평판 훼손 가능성으로 인해 페이크 뉴스를 전파하지 않기 때문이다.

 

- 87~92%에 달하는 페이크 뉴스 탐지 예측력을 보이는 반면 정보가 확산된 이후 전파 경로를 파악할 수 있다는 측면에서 실시간 분석 능력 부족이라는 태생적 한계를 가질 수 밖에 없다.

 

 

⑥ 하이브리드 방식

 

- 복수의 분석 메커니즘을 결합해서 페이크 뉴스를 탐지하는 기법

 

- 페이스북의 경우 전문가 기반 탐지 기법과 인공지능 기반의 탐지 기법을 결합하여 페이크 뉴스를 탐지하고 있다.

 

- KAIST는 이상 확산 패턴 감지 기법과 언어적 신호 특징 분석인 시맨틱 분석을 동시에 사용한 새로운 연구를 발표하였다.

 

- 각각의 기법이 가진 장점을 결합하여 보다 높은 정확성과 공신력을 가질 수 있기 때문에 점차 확산될 것으로 전망된다.