본문 바로가기
IT 와 Social 이야기

[KISDI] 음성인식 AI 비서 시장의 현황과 시사점

by manga0713 2017. 6. 10.

 

 

 

 

■ 음성기반 사용자 인터페이스의 특징

 

 

- Apple의 음성인식 비서 서비스 Siri는 막대한 양의 데이터베이스를 활용하여 질문에 최적 답변을 선택하는 구조를 갖고 있으며, Google의 음성검색 기능 역시 입력된 음성데이터를 클라우드 서버에서 텍스트로 변환하여 분석하고, 그 결과에 따른 실시간 검색결과를 기기로 재전송하는 방식이다.

 

- 음성기반 인터페이스는 분당 약 150단어 수준의 입력이 가능 하기 때문에 분당 평균 40단어 가량 입력이 가능한 터치나 타이핑 방식에 비해 그 속도가 3배 이상 빠르다.

 

- 필요한 정보검색이나 기능 구동을 위한 랜덤액세스가 가능하며, 단방향이 아닌 컨텍스트 기반 문제해결방식이기 때문에 텍스트 입력이나 터치보다 훨씬 인간의 자연스러운 커뮤니케이션 형태에 가깝다.

 

- 직접 접촉하지 않고도 IoT 기기나 서비스를 제어할 수 있을 뿐만 아니라, 조작방식을 학습할 필요가 없기 때문에 편의성 측면에서 터치나 텍스트 기반보다 우수하다.

 

 

 

 

 

 

 

■ 음성인식 AI 스피커의 차별화 요소

 

 

- 소리나 음성을 주고받는데 가장 일반적으로 쓰이는 입출력 장치는 마이크와 스피커 이다. 따라서 음성인식 기술 구현에 가장 핵심적인 입출력 장치만으로 이루어진 스피 커는 데이터 수집 측면에서도 스마트폰이나 TV보다 훨씬 효율적이다.

 

- 상시적으로 음성데 이터를 녹음하고 클라우드 서버에 축적할 수 있으므로 음성인식 시스템 개선에 필요한 중요한 자원을 훨씬 빠른 속도로 수집한다.

 

- 상대적으로 잡음이 적은 실내에서 사용되는 스피커는 음성인식 기술 구현에 적합하다.

 

 

 

■ 주요 기업의 음성인식 AI 스피커 전략

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

■ 결론 및 시사점

 

 

- 각 사는 스피커뿐 아니라 음성인식 AI 기술력을 확장하여 AI 시장 우위를 점하는 것을 목표로 삼고 있다.

 

- 기업 들은 자사의 음성인식 기술을 외부에 개방함으로써 독자적인 오픈 생태계를 조성하려 노력하고 있다.

 

- 이러한 시도는 기기를 더 많이 판매하기 위한 경쟁으로 이해하기보다는 향후 터치나 텍스트 입력 방식을 대체할 음성 인터페이스의 표준을 선점하기 위한 노력으로 바라 보아야 할 것이다.

 

- AI 스피커는 전원이 연결되어 있을 때에는 항상 이용 자의 음성에 귀 기울이고 있다. 즉, 상시 녹음이 이루어지고 있으며 그 데이터가 Amazon 이나 Google의 클라우드 서버에 저장되고 있는 것이다. 그 뿐만 아니라 음성인식 기반 AI 스피커는 이용자가 시청한 TV 쇼프로그램이나 인터넷 검색결과, 구매내역, 수면 시간 등의 행동 정보를 지속적으로 수집하고 있다.

 

- AI 스피커 시장의 본격화에 앞서 짚고 넘어가야 할 중요한 이슈 중 하나는 이용자의 프라이버시 보호와 관련된 사항이다. AI 스피커를 통해 수집된 데이터는 무선인터넷을 통해 클라우드 서버로 전송되기 때문에 데이터 도난이나 해킹에 대한 우려도 존재한다.

 

 

⊙ AI 스피커를 출시한 기업들은 수집된 개인정보는 비밀이 유지될 것이라 약속하지만, 구체적으로 어떤 방식으로 이 개인정보가 보호되는지에 대해서는 알려져 있지 않다. 따라서 각 사는 이에 대해 구체적이고 투명한 대책을 마련하고 잠재적 이용자들의 신뢰를 확보하는 것이 우선이다.

 

 

 

 

**출처: [KISDI] 음성인식 AI 비서 시장의 현황과 시사점

**문서:

음성인식 AI 비서 시장의 현황과 시사점.pdf