본문 바로가기
IT 와 Social 이야기

[ETRI] 인공지능 기반 영상 콘텐츠 생성 기술 동향

by manga0713 2019. 6. 11.

 

[ 영상 콘텐츠 생성 기술 분류별 장단점 ]

 

 

 

*** 출처: [ETRI] 인공지능 기반 영상 콘텐츠 생성 기술 동향 - Artificial Intelligence-Based Video Content Generation

 

 

 

I. 서론

 

- 영화, 방송 드라마, 다큐멘터리 등 영상 콘텐츠는 다양한 예술 장르가 복합적으로 적용되는 종합 예술 장르일 뿐 아니라 거대 엔터테인먼트 산업을 형성하는 핵심 매체이다.

 

-  인공지능 기술 관점에서 영상 콘텐츠는 시각과 청각 정보를 담은 순차 데이터로 다룰 수 있다. 즉 이미지, 음성, 텍스트 등 여타의 단일 모달리티(Modality) 데이터와 달리 복합 모달리티를 가지는 데이터이며, 이들 복합 모달리티가 프레임을 통해서 순차적으로 표출된다. 영상 콘텐츠가 담고 있는 시대상, 역사적 의미 등 시각적으로 관측하기 어려운 정보까지 고려하면 일반 적인 데이터와는 극명하게 구분된다.

 

- 콘텐츠 생성 기술의 목표는 인간과 동일한 창작 능력의 획득에 있다. 이를 위해서 기계는 기존 콘텐츠를 분석하여 표현하고, 표현된 형상을 기반으로 새로운 데이터를 생성할 수 있어야 한다.

 

-  즉 콘텐츠 창작은 데이터의 표현, 이해, 생성의 전 과정을 인공지능 기술이 인간과 유사하게 수행하는 데 그 목적이 있다. 이를 통해 최종 산출물뿐만 아니라 다양한 분야에서 활용 가능한 중간 산출 기술들을 얻을 수 있다.

 

- 시각, 청각 등 각각의 모달리티는 서로 간의 연관성을 가지고 생성되어야 하기 때문에 단일 모달리티에 비해 기술 개발의 어려움이 크다. 특히, 이들 모달리티의 관계가 의미에 따라 변화하거나 유지되어야 하며, 이때의 의미가 데이터에 직접적으로 나타나지 않는 경우까지 고려하면 기술 개발의 난이도는 더 높아진다.

 

- 이로 인해 사진, 시, 소설 등의 콘텐츠 생성 기술과 비교할 때 영상 콘텐츠 생성 기술은 학계를 중심으로 연구가 이제 시작되는 시점이라 볼 수 있다.

 

 

II. 영상 콘텐츠 생성 기술 분류

 

 

- 반자동 기술: 영상 콘텐츠의 생성 과정에서 결과물의 질적 향상을 위해 수동 정보 삽입 혹은 수정이 요구 되는 기술을 의미

 

- 자동 기술: 초기 입력을 기준으로 최종 결과물인 영상 콘텐츠 생성까지 인공지능 모델에 의해 전 과정이 수행되는 기술을 의미

 

- 반자동 기술: 인공지능 기술을 기반으로 생성된 결과물로 대 내외에 알려지는 대부분의 영상 콘텐츠는 현재까지 반자동 기술을 기반으로 구축되었다. 이는 초기 개발 단계에 있는 영상 콘텐츠 생성 기술의 특성상, 산출물의 질적 수준을 담보할 수 없기 때문

 

 

III. 반자동 영상 콘텐츠 생성 기술

 

- 영상 콘텐츠의 제작과정에서 일부 자동화 혹은 비용 절감을 위해 활용되는 인공지능 기술 혹은 시스템

 

- 2016년 IBM Watson: SF 영화 의 예고편을 인공 지능을 활용하여 제작, 윔블던 경기의 하이라이트 영상을 생성

 

-  영상 콘텐츠의 질적 수준은 떨어뜨리지 않으면서 제작 시 영상 표현, 장소 및 시간의 제약 등을 해소하는 데 그 목적이 있음

 

 

1. 벤자민(Benjamin)

 

-  <Sunspring> 이라는 9분짜리의 SF 단편 영화, 3명의 배우가 출현하며, 이야기의 전체 구성 및 제목까지 벤자민에 의해 작성

 

-  Long and Short Term Memory(LSTM)를 기반으로 설계된 Recurrent Neural Networks(RNN) 모델로써 문장을 생성 하도록 학습

 

- 학습 데이터는 스탠리 큐브릭(Stanley Kubrick)의 <Space Odyssey>를 비롯하여 <Brazil>, <Mad Max>, <The Matrix>, <Star Wars> 등 의 영화 스크립트와 30,000곡 이상의 팝송 가사를 이용하여 구축

 

- 스토리 시퀀스의 일관성을 LSTM-RNN 기반의 모델을 통해 유지함으로써 벤자민은 연속성을 가지는 문장들을 생성할 수 있었고, 이를 토대로 영화를 제작할 수 있었dma

 

- 비록 벤자민은 스크립트 작성에 한정하여 인공 지능을 활용하고 있으나, 영화 <Sunspring> 제작에서는 Deepfake와  같은 얼굴 교체 기술이 활용 되었다. 즉, 영화의 시나리오 창작부터 촬영 및 후 편집 과정의 요소에서 인공지능 기술이 활용된 것 을 알 수 있다. 이를 근거로 <Sunspring>을 인공지능이 만든 최초의 상업 영화라 평함

 

- 2019년 3월에도 매일 한 편씩 생성된 스크립트를 일반에 공개

 

- 벤자민은 일반적인 문장 생성 모델과 달리 영화의 스크립트를 생성하도록 설계되었다. 그럼에도 불구하고 생성된 문장은 너무 일반적인 문장이며, 생성한 장면은 특색이 없는 경우가 많았음

 

- 다행스럽게도 문장 생성에서의 문제점은 최근 두각을 드러내는 GANs 기반의 모델을 통해 해소되고 있는 상황

 

 

2. 인터랙티브 미디어 창작 플랫폼

 

- 한국전자통신연구원의 인터랙티브 미디어 창작 플랫폼(이하 ETRI 창작 플랫폼)은 사용자의 의도에 맞는 새로운 인터랙티브 미디어를 쉽게 창작할 수 있도록 기능을 제공

 

- ETRI 창작 플랫폼에서는 기존 영화 및 방송 등 영상을 분석하여 의미 단위로 분할하고, 분할된 영상에 대한 인공지능 기반의 태깅 기능을 제공

 

- 사용자는 자신의 스토리를 질의로 하여 분할된 영상을 검색 및 선택함으로써 기존에 촬영된 고품질의 영상을 기반으로 새로운 스토리를 구성

 

- 스토리의 구성은 다수의 장면을 조합하여 하나의 영상 콘텐츠를 생성하도록 하고 있다. 이때, 추가로 스토리의 분기에 따른 사용자 인터랙션을 삽입할 수 있는 기능을 제공함으로써 최근 이슈가 되고 있는 Netflix의 벤더 스내치와 같은 인터랙티브 영화를 쉽게 제작할 수 있음

 

 

IV. 자동 영상 콘텐츠 생성 기술

 

 

1. MCNet

 

- 임의 수의 프레임을 관측한 값을 토대로 이후 프레임을 생성 하는 모델. 즉 영상의 0.5초를 관측하고, 이후 0.5초의 가상 영상을 생성. 해당 문제는 video prediction이라 명명되어 컴퓨터 비젼 분야에서 연구되기 시작함

 

- 영상의 프레임을 콘텐츠와 모션으로 분리하여 처리

 

- 임의 시점의 프레임을 Convolution Neural Network(CNN)를 이용하여 벡터화. 생성된 벡터는 영상 프레임의 형상을 담게 됨

 

- 모션의 경우, 현재 프레임과 이전 프레임의 차를 표현하는 residual 프레임을 CNN과 LSTM 기반의 RNN을 이용하여 벡터화하여 얻음

 

- 얻어진 콘텐츠와 모션 벡터는 CNN 기반의 decoder를 통해 프레임으로 변환

 

- 모델의 학습은 생성된 프레임과 실제 프레임 간의 차이와 adversarial loss를 최소화하도록 이루어짐

 

 

2. MoCoGan

 

- 영상을 구성하는 프레임들은 동일한 콘텐츠에 대해 모션을 기반으로 변형한 결과물임을 가정

 

- 얼굴의 표정 변화를 촬영한 영상을 상상하면 쉽게 이해된다. 영상의 콘텐츠는 얼굴의 형상으로 정의할 수 있으며, 특정 표정을 담는 것은 모션 정보를 기반으로 생성된 결과물

 

-  CNN을 통해 공통된 콘텐츠 벡터를 추출

 

- 임의의 노이즈로부터 생성된 모션 벡터는 콘텐츠 벡터와 결합되어 프레임을 생성

 

- 각각의 프레임들을 순차적으로 취합하여 영상을 생성