본문 바로가기
IT 와 Social 이야기

[IITP] 감정 인식 기술 동향

by manga0713 2018. 10. 17.

 

[영상, 음성, 생체의 복합적 신호 시스템]

 

 

 

 

*** 출처 : [IITP] 감정 인식 기술 동향 - 인하대학교 송병철, 김대하, 최동윤, 이민규

*** 문서:

file2141513302977931472-186802.pdf

 

 

 

 

 

 

 

- 센싱 기술과 딥러닝 기술, 그리고 데이터베이스 기술이 융합되어 최근 인간의 감정 인식 기술이 발전하는 추세에 있다.

 

- 인간의 표면적인 감정은 얼굴 표정이나 행동 그리고 음성으로 인식이 가능하다. 하지만, 내면적인 감정 인식을 쉽지 않은데, 생체 신호를 이용하면 인식이 가능할 수 있다.

 

- 따라서 단일 신호에만 의존하지 않고, 영상, 음성, 생체 신호 등 멀티모달 신호를 사용하는 것은 감정 인식의 정확도를 향상시키는데 기여할 수 있다.

 

- 그러므로 멀티모달 신호를 이용한 딥러닝 알고리즘을 효과적으로 설계하고 학습시킬 수 있다면 소셜 로봇 같은 기계와 인간의 상호작용이 좀 더 원활해질 수 있을 것이다.

 

 

 

II. 감정 인식 기술 개요

 

 

1. 동영상 기반 감정 인식 기술 동향

 

- 갈수록 판단하기 힘든 상황에서의 인물 감정 인식쪽으로 연구가 확장되고 있다. 예를 들면, AFEW 데이터셋은 점차 리얼리티 쇼나 시트콤과 같이 좀 더 즉각적인 감정의 분석에 초점을 두고 있다.

 

- 영상 내 얼굴의 이차원적인 특징을 추출하고 분석하기 위해 CNN과 같은 팁 네트워크가 널리 사용되고 있다.

 

- 동영상 내 프레임들의 시간적 연속성을 추출/분석하기 위한 LSTM이라는 기법도 자주 사용되고 있다.

 

- 사람의 감정을 단순히 화남, 역겨움, 두려움, 행복함, 중립, 슬픔, 놀라움 등 7가지로 분류하는데서 벗어나 좀 더 세밀한 감정 분석을 위해 연속적인 Arousal-Valence(AV) 영역에서의 감정 인식 연구도 활발해지고 있다.

 

- 이는 사람의 감정을 특정한 라벨로 분류하는 것보다 흥분 정도와 positive/negative 정도를 파악하여 그 수리로 사람의 감정을 연속적으로 분류하는 것이 더 효율적일 수 있기 때문이다.

 

- AV 영역에서의 감정 인식 분석을 위한 AffectNet 데이터셋이 만들어져 관련 연구가 활발히 진행되고 있다.

 

 

2. 음성 기반 감정 인식 기술 동향

 

- 음성만으로 감정 인식을 하는 응용 사례는 실제로 많지 않다. 이는 동영상 속에서 음성 정보는 산발적으로 존재하기 때문이다.

 

- 최근에는 딥러닝을 이용한 기술들이 주를 이루고 있다.

 

 

3. 생체신호 기반 감정 인식 기술 동향

 

- Haag, Andreas, et al. “Emotion recognition using bio-sensors: First steps towards an automatic
system,” Tutorial and research workshop on affective dialogue systems. Springer, Berlin, Heidelberg,
2004.

 

- Jenke, Robert, Angelika Peer, and Martin Buss. “Feature extraction and selection for emotion
recognition from EEG,” IEEE Transactions on Affective Computing 5.3(2014): 327-339.

 

- 송병호 외, “사용자 생체신호 인식 기반 감성 소셜 로봇 시스템 설계”, 제어로봇시스템학회 하계학술대회,
2018.

 

- 이현수 외, “생체 신호를 이용한 사용자 감정 기반의 음악 추천 시스템 제안”, 대한전자공학회 하계종합학술대회, 2017.

 

 

 

IV. 멀티모달 딥러닝 기반 감정 인식

 

 

2. 멀티모달 딥러닝

 

- 멀티모달 딥러닝은 성질이 다른 복수의 입력을 처리하는 딥러닝 알고리즘으로 각각의 신호 모달리티에서 부족한 정보를 상호 보완하여 인식 성능을 향상하고자 하는데 목적이 있다.

 

- 서로 다른 모달리티의 정보를 융합하는 과정이 핵심이다.

 

 

 

 

[멀티모달 딥러닝 융합 방식 예시]

 

 

 

- 멀티모달 딥러닝 기법은 EmotiW에서도 대부분의 팀들에 의해 활용되고 있다. EmotiW에서 제공하는 데이터셋은 인물의 표정과 음성이 존재하는 비디오와 오디오의 멀티모달 정보를 제공한다.

 

- 최근 EmotiW에서 발표되는 기술은 영상정보를 처리하는 네트워크와 음성정보를 처리하는 네트워크를 별도로 설계하여 처리하고 감정에 대한 출력 확률 정보를 융합하는 늦은 융합 과정이 주를 이루고 있다