본문 바로가기
IT 와 Social 이야기

[IITP] 인공지능 학습용 영상 데이터 기술 동향

by manga0713 2021. 3. 19.

 

 

- 출처: [IITP] 인공지능 학습용 영상 데이터 기술 동향 - 임철홍 광주대학교 조교수

file4820564855331307370-198802.pdf
6.89MB

 

I. 서론

 

- 이전에는 단일 객체 인식을 위한 데이터가 많이 활용되었으나, 이미지의 상황을 이해하여 캡션 등을 자동으로 생성하기 위한 연구가 진행되면서 다중 객체 인식을 기반으로 장면 설명, 객체 간의 관계 등의 데이터가 필요하게 되었다.

 

- 이를 위한 영상 데이터로 Microsoft COCO(Common Object in COntext), 구글 Open Image, STANDFORD와 YAHOO의 Visual Genome이 대표적

 

- 이들 데이터에서는 영상 데이터에 관계 설명, 음성 및 문장 형태 나레이션 등을 활용하여 영상 데이터를 쉽게 학습 하고 활용할 수 있는 방법이 제공되고 있다.

 

 

II. COCO

 

- 330,000개의 이미지에서 80개 분류 1,500,000개의 객체 인스턴스를 가지고 있다. Flickr의 이미지를 기반으로 학습과 테스트가 진행되었다.

 

- 다운로드한 데이터 셋은 이미지 원본파일과 이를 설명하는 annotation 파일로 구성된다. annotation 파일은 captions, instances, person_keypoints 파일로 구성되며, json 형태로 되어 있다. 각 json 파일은 전체 이미지에 대해 하나로 구성되어 있어 크기가 매우 크다.

 

 

 

III. Open Image

 

- Open Image는 구글에서 공개한 오픈 이미지 데이터 셋이다. 2016년 처음 공개하였으며, 2018년에 V4, 2020년 2월에 V6가 공개되었다.

 

- Open Image에 공개된 데이터 셋은 활용 용도에 맞도록 여러 형태로 구성되어 있다. 이미지 수준 레이블(image-level labels), 객체 경계 상자(object bounding boxes), 객체 분할 마스크(segmentation masks), 시각적 관계(visual relationships), 나레이션(localized narratives)을 포함하는 데이터이다.

 

○ V6

 

- 675,000개의 나레이션이 추가되었다. 나레이션은 이미지를 설명하는 캡션과 음성 설명이 포함되어 있고 음성 설명과 캡션에 해당하는 사물이나 동작 등을 마우스로 그린 트레이스가 포함되어 있다.

 

- 이를 통해 컴퓨터가 개별로 사물 인식을 하지 않고도 마우스로 표현된 사물이나 동작을 참조하여 장면을 설명하는 학습 등에 활용될 수 있다.

 

 

IV. Visual Genome

 

- 지식 베이스의 이미지 데이터 셋으로, 이미지의 구조를 언어와 연결 하려고 노력하고 있다. 데이터 셋은 지역 설명(region descriptions), 객체(Objects), 속성(attributes), 관계(relationships), 지역 그래프(region graphs), 장면 그래프 (Scene graphs) 및 질문답변으로 구성되어 있다.

 

 

- 108,077개의 이미지에 5,400,000개의 지역 설명과 3,800,000 개의 객체, 2,800,000개의 속성, 2,300,000개의 관계로 구성되어 있다.