본문 바로가기
IT 와 Social 이야기

[ETRI] 디지털 개인비서 동향과 미래

by manga0713 2021. 3. 11.

[ 출처: 6 Best Digital Personal Assistants for Entrepreneurs and the Average Folks ]

 

36-1_1-11.pdf
0.46MB

 

[출처: [ETRI] 디지털 개인비서 동향과 미래]

 

 

I. 서론

 

- 디지털 개인비서는 사람이 수행해야 할 업무를 기계가 사람처럼 처리해 주는 모든 기능과 서비스를 총괄하여 말한다.

 

- 사람처럼 언어로 소통하는 것을 가장 큰 특징으로 한다.

 

- 본 고에서는 국 내·외 서비스 동향, 디지털 개인비서의 언어 소통을 위한 대화처리 기술 동향과 향후 디지털 개인비서가 가지게 되는 소통과 인지 기능을 통해 가능해질 서비스에 대해 전망하고자 한다.

 

 

II. 디지털 개인비서 서비스 동향

 

1. 국외 서비스 동향

 

- eMarketer 시장조사에 의하면 2019년 미국 내 33%가 정기적으로 디지털 개인비서 기능을 쓰는 것으로 나타났고, Polaris Market Research에 따르면 2019년 약 25억 달러의 시장을 형성하고 있으며, 그 시장은 매년 성장 중이다.

 

- 스마트폰, 스마트 스피커뿐만 아니라 자동차, TV, 시계, 헤드폰, 안경 등으로 적용 형태가 확장되고 있다.

 

- 차량용 음성 비서 플랫폼으로는 애플의 Carplay, 구글의 Android Auto 등이 있으며, 많은 안드로이드 TV에서 구글 Assistant를 이용할 수 있다. 아마존은 2019년 Alexa를 탑재한 스마트안경을 선 보였다.

 

- 기존 단순 음성검색이나 잡담대화 기능에서 기기제어, 예약, 주문 등의 태스크 수행과 복잡한 음성 명령을 수행하는 식으로 기능이 확장되고 있다.

 

- 작업을 한 번에 음성으로 처리할 수 있을 뿐 아니라, 특정 앱을 실행하여 실행결과를 응답으로 받을 수 있다.

 

- 단답식 대화방식에서 벗어나 대화의 상황과 맥락에 기반하여 사용자 의도를 이해하고, 이전의 대화내용을 기억하여 사용자의 선호도를 학습하고, 개인 기호에 맞는 맞춤형 서비스를 제공하는 등 이해 및 응답 성능이 지능화되고 있다.

 

- 기계적인 응답이 아니고 좀 더 자연스러운 인터페이스를 제공하기 위한 시도도 이루어지고 있다.

 

- 시장에서 주도적인 디지털 개인비서 제품으로는 구글 Assistant, 애플 Siri, 아마존 Alexa, 삼성 Bix-by, 마이크로소프트 Cortana, 바이두 Duer 등이 있고, 그 외에 DataBot, Lyra, Hound, Youper, Robin 등을 주요 제품으로 들 수 있다.

 

- 디지털 개인비서의 인지 기능 수준은 4단계로 나눌 수 있다. 1단계 는 단순 반응 방식의 챗봇 수준이며, 2단계는 NLP 및 Ontology 기반 검색 기술을 활용한 지능형 비서이다. 3단계는 IBM 왓슨과 같이 방대한 지식을 기반으로 확률적 추론이 가능한 시스템이고, 4단계는 의식이 있는 가상비서라 할 수 있다. 현재 대부분의 디지털 비서의 수준은 아직 1, 2단계의 낮은 수준이고, 음성언어이해 오류, 보안 및 프라이버시 문제 등 해결해야 할 문제들이 남아있으나 디지털 비서의 생태계는 지속적으로 확장될 것이다.

 

 

2. 국내 서비스 동향

 

- 국내 기업들은 개인 비서 서비스를 오픈 API 형태로 플랫폼화하여 스마트홈, 자동차 등 다양한 영역에서 개인비서 생태계를 확장하는 방향으로 나아가고 있다.

 

- 언택트 문화가 확산과 더불어 지능형 개인 비서 서비스에 새로운 패러다임이 불고 있다.

 

- 삼성전자는 음성 인식 플랫폼 ‘Bixby’를 자체 개발하여 2016년 갤럭시 스마트폰에 처음 탑재하였다. 이후 세탁기, 공기청정기와 같은 자사 가전기기에도 Bixby를 탑재하며 지능형 인터페이스로의 역할을 확대하였다. Bixby는 텍스트, 카메 라, 터치, 음성 등의 다양한 입력 방식으로 지식 검색, 일정 관리, 은행 및 결제 서비스 등을 제공하고 있다.

 

- SK텔레콤은 AI 스피커 ‘NUGU’에 누구콜(NUGU call) 서비스를 연동하여, 음성으로 외부 번호를 검색하고 자동으로 전화를 걸 수 있는 기능을 선보였다. 또한, NUGU 플랫폼을 Btv, T맵, T전화에 적용하는 등 홈, 자동차, 모바일 영역에서 지속적으로 접점을 늘리며 NUGU 플랫폼의 생태계를 다각화하고 있다.

 

- KT의 AI 스피커 ‘기가지니’ 시리즈는 셋톱박스와 연동 가능하며, 음성 입력만으로 TV를 조작 할 수 있다. 출시 당시 KT는 AI 스피커에 셋톱박스를 접목하는 새로운 전략을 보여 많은 관심을 받았다. 또한, AI 영어학습, 핑크퐁 노래방 등 다양한 키즈 특화 학습서비스로 자녀를 둔 고객 층의 눈길을 끌고 있다.

 

- 네이버는 2017년 AI 플랫폼 ‘클로바’를 탑재한 AI 스피커 ‘프렌즈’, ‘웨이브’ 출시에 이어 2020년 10월 책 읽어주기 기능이 탑재된 AI 스마트 조명 ‘클로바 램프’를 출시했다. 조명 아래에서 영어 또는 한글로 된 책을 펼치면 광학문자인식(OCR)으로 책의 글자를 인식한 다음, 음성 합성 기술로 아이나 성인의 목소리로 책을 읽어준다. 클로바 앱과 연동을 통해 아이의 독서 기록을 관리할 수 있으며, 외국어 교정 및 발음 지원, 번역 기능까지 제공한다. 아울러, 네이버는 홈 IoT와 IPTV 고객 경험이 많은 LGU+와 협력하여 AI 개인비서 서비스 시장에서 경쟁력을 확보하고 있다.

 

- 카카오는 카카오i 플랫폼을 탑재한 ‘카카오미니’에 이어 네 번째 AI 스피커 ‘미니 헥사’를 출시하였다. 카카오 AI 스피커에는 경쟁기업과 차별적인 요소인 ‘카카오톡’ 서비스를 연동하여, 음성으로 손쉽게 카카오톡 메시지를 전송하고 정보를 공유 할 수 있도록 하고 있다. 이 외에도 카카오 T택시, 카카오 내비, 카카오 홈IoT 기능을 탑재하고 있으며, 최근에는 건설사와 협력을 통해 스마트홈 분야의 서비스를 본격화하였다.

 

 

III. 개인비서 소통 기술 동향

 

1. 목적지향 대화처리 기술

 

- 목적지향 대화처리 기술은 사용자가 목표를 달성하기 위해 시스템과 대화하는 유형으로, 식당 검색, 호텔 예약, 일정 관리 등 다양한 목적에 활용되고 해당 도메인의 지식 베이스를 바탕으로 사용자의 요구를 만족시킨다.

 

- 전통적인 목적지향 대화시스템은 자연어 이해, 대화 상태 추적, 대화 정책 결정, 자연어 생성 모듈이 연결된 파이프라인 구조를 갖는다.

 

- 파이프라인 구조의 목적지향 대화시스템은 동작 이해와 제어가 가능하기에 대부분의 상용시스템에서 활용되고 있다.

 

- 그러나 새로운 도메인으로의 적용이 어렵고 독립적 모듈 간의 오류가 전파되는 문제가 존재하여 최근에는 심층 신경망 을 기반으로 각 모듈이 통합되는 추세이다.

 

- 자연어 이해 모듈과 대화 상태 추적 모듈을 통합한 자연어 이해 기반 대화 상태 추적 모델, 대화 정책 결정 모듈과 자연어 생성 모듈을 통합한 자연어 생성 기반 대화 정책 결정 모델, 모든 모듈을 하나의 모델로 통합한 종단형 대화시스템이 대표적으로 연구되고 있다.

 

- 종단형 목적지향 대화시스템이 상용화 수준에 이르기까지는 여전히 해결해야 할 문제들

 

   ① 외부 지식 베이스와의 연동

   ② 태깅 데이터에 대한 의존성

   ③ 학습 기반 목적지향 대화시스템의 고질적인 문제인 학습데이터의 부족

 

 

2. 오픈도메인 대화처리 기술

 

- 인간다운 대화를 수행하게 하는 것

 

- “인간다움”의 기준은 지난 몇 년간 더 확장하여, 대화의 상하 문맥을 기억하여 일관성을 유지하는 문맥 기반 대화, 시스템이 특정 캐릭터를 가지며 나이, 직업, 취미 등 개인 특성을 고려한 페르소나 (Persona) 대화, 주어진 텍스트나 구조화된 지식을 이용하여 상대방이 필요한 정보를 찾아 제공하는 깊이 있는 대화를 진행하는 텍스트 이해기반 대화 등 기술에 관한 연구가 진행됐다.

 

- 딥러닝 기반 오픈도메인 대화처리 모델은 초기 RNN 구조의 생성모델에서 Transformer 생성모델로 바뀌었고, 이후 초대용량 사전학습 언어모델에 대화 코퍼스로 추가 학습하여 모델을 대화모델로 Fine-tuning하는 추세가 되었다.

 

 

3. 질의응답 기술

 

- 언어의 의미를 이해하고 문장 형태로 질문을 표현하여 정답에 대한 추론이 가능한 질의응답(QA: Question Answering) 기술의 활용도가 점점 높아지고 있다.

 

- 특히, 사용자의 질문에 답을 제시하거나 추천해 주는 기능은 디지털 비서가 수행해야 할 중요한 역할 중 하나이다.

 

- 스탠포드대학을 비롯해 IBM, 구글, MS, 페이스북 등 글로벌 기업들은 질문에 포함된 단어 및 단어들의 어순을 매칭하여 정답을 추론하는 기존의 질의응답 기술에서 탈피하기 위해 기계가 다양한 주제의 글을 읽어서 뜻을 이해하는 능력인 독해력(Reading Comprehension)과 읽은 글에 대한 이해력을 평가하기 위해 질의응답 기술을 딥러닝 기반으로 개발하고 있다. 현재는 어휘와 문장의 문법 분석에서 나아가 “독해력을 갖는 기계”(MRC: Machine Reading Comprehension)를 연구하는 단계이다.

 

- 영어 QA 연구를 위한 SQuAD 2.0, MS MARCO, Natural Questions, ARC, TriviaQA 등 다양한 벤치마크 챌린지가 열리고 있다.

 

- 딥러닝 기반 기계 독해 기술의 성능은 이미 사람의 수준을 뛰어넘었다고 분석이 되나 실제 상업적 적용을 위해서는 정답이 있는 단락이나 문서가 주어졌을 때만 정답을 추론할 수 있는 한계를 극복해야 하는 난제는 남아 있는 상태이다.

 

 

IV. 디지털 개인비서 미래 전망

 

- 디지털 개인비서 기술에서 해결되어야 할 가장 중요한 이슈는 개인정보 침해 문제이다. 디지털 개인비서 기술은 끊임없이 사용자 발화를 기록 및 저장하면서 적절한 상황에 문맥에 맞는 응답을 생성하는 특성을 갖고 있기 때문에 손쉽게 해결하기 어려운 문제이기도 하다. 또한 사용자의 요구사항이 증가하고 이를 만족시키는 시스템 응답을 생성하기 위해 서는 더 많은 개인정보가 필요한 상황이기도 하다.

 

- 디지털 개인비서의 미래는 다음과 같이 예측하고 구체화할 수 있다.

 

   ① 보다 영리한 디지털 개인비서

 

   ② 오픈 플랫폼 가능성에 대한 기대

 

   ③ IoT 장치와의 결합

 

   ④ 영상 이해를 통한 보다 정확한 이해

 

   ⑤ 감정 분석 및 이해

 

   ⑥ 팬데믹 환경에서의 디지털 개인비서