[출처] : [ITFIND] 이미지 데이터셋 제작을 위한 Annotation 자동화 기술 분석 - 송순용 한국전자통신연구원 선임연구원
I. 서론
- 인공신경망으로 입력되는 각각의 이미지에 대해, 인식 대상에 대한 정답을 달아 주는 작업을 Annotation이라고 한다.
- 과거 행해졌던 Annotation 작업은 대부분 인적 자원을 활용해 왔다. 작업시간 단축을 위해 많은 인적 자원을 동원할 필요가 있는데, 이러한 경우 Annotation 결과가 사람마다 편차가 발생하여 데이터셋의 품질을 하락시키는 원인이 된다. 또한, 많은 인적 자원을 활용하더라도 노동력이 필요하기 때문에 데이터셋 확보에 시간이 다소 필요 하다는 문제점이 있다.
- 기계적인 규칙에 의해 자동적으로 Annotation 작업을 수행한다면 이러한 단점을 극복할 수 있을 것으로 판단된다. 본 고에서는 Annotation 자동화 기술이 현실적으로 사용이 가능한 수준인지 분석하려고 한다.
II. 이미지 인식 기술과 데이터 Annotation
1. 이미지 인식 기술과 Annotation 형식
- 이미지 분류 기술은 [그림 1]과 같이 인공신경망의 출력이 이미지에 담긴 물체가 무엇인지 추론하는 것을 목표로 한다.
- 이미지에 도구가 있는 경우 도구의 종류를 판별하는 인공신경망 훈련을 위해 필요한 Annotation은 도구의 명칭을 나타내는 심볼이 되어야 한다. 이미지의 물체를 표현하는 심볼을 클래스(Class) 혹은 레이블(Label)로 지칭한다.
- 물체 검출 기술은 [그림 2]와 같이 이미지 공간에 놓인 물체의 위치에 대해 경계상자를 이루는 모서리의 좌표로 출력하고, 경계상자 안에 놓인 물체의 클래스를 분류하는 것을 목표로 한다.
- 물체 검출에서는 하나의 이미지에서도 여러 가지 물체가 존재할 수 있다. 따라서 이미지 1장당 1개의 파일로 Annotation 결과를 저장하는 것이 일반적이다.
- 시맨틱 분할 기술은 각각의 픽셀이 클래스를 의미하며, 인공신경망은 입력 이미지와 동일한 2차원 픽셀 폭과 높이를 갖는 1채널 이미지를 생성한다. 즉, 시맨틱 분할 기술은 [그림 3]과 같이 물체 면적으로 정답값이 표현된 마스크 이미지를 출력하는 것을 목표로 한다.
- 시맨틱 분할 기술의 인공신경망은 물체 검출과는 달리 면적에 해당하는 값이 물체의 위치를 표현하며, 면적을 채우는 픽셀들의 클래스를 분류하게 된다.
2. Annotation 도구
- 이미지 Annotation 도구가 포함해야 할 기본적인 기능은 경계박스와 마스크를 생성하고 클래스를 부여하는 것이다. 현재 제작된 수십여 종의 Annotation 도구들은 대부분 이러한 기능을 제공하고 있다.
III. Annotation 자동화 기술 분석
1. 인공지능 기술을 활용한 Annotation 자동화
- 사전훈련된 모델을 이용하여 Annotation을 자동화하기 위해서는 인식 가능한 클래스 수가 보다 세분화되도록 훈련할 대규모의 데이터셋을 구축할 필요가 있다.
- 상용 서비스로 Supervisely, SuperAnnotate, AWS SageMaker Ground Truth 등이 존재한다.
- 이미지 분류를 위해 훈련된 인공신경망에서 합성곱 신경망의 일부 계층을 시각화하면 물체 검출 혹은 시맨틱 분할을 위한 Annotation 자동화 작업에 활용할 수 있다.
- [그림 5]의 상단에 위치한 3개의 이미지 중 가운데 이미지는 어텐션 계산 결과로 붉은색일수록 확률이 높고 파란색일수록 확률이 낮다. 원본 이미지와 어텐션 결과를 합성 해보면 우측과 같이 나타나는데, 목표 객체가 위치한 곳을 중심으로 높은 확률을 보이는 것을 알 수 있다. [그림 5]의 가운데 그림과 같이 경계값(threshold)을 기준으로 어텐션 결과를 분할하면 마스크 이미지를 얻을 수 있다. 마지막으로, 마스크 이미지의 수평 및 수직 방향의 최대값과 최소값을 계산하여 [그림 5]의 하단 그림과 같이 경계상자를 얻을 수 있다.
2. 스테레오 비전 기술을 활용한 Annotation 자동화
- 이미지 데이터를 새로 취득하여 Annotation 작업을 수행해야 하는 경우이면 스테레오 비전 장비를 이용하여 Annotation을 자동화할 수 있다.
- 스테레오 비전 장비는 카메라 2개를 이용하여 깊이정보를 계산한다. 깊이정보는 카메라와 피사체간의 거리를 나타낸다.
- 물체들이 카메라와 수직 방향으로 충분한 거리를 유지하는 경우 촬영할 거리의 범위를 정하는 방식으로 경계상자 혹은 마스크 이미지를 얻을 수 있다.
IV. 결론
- Annotation 도구의 세계 시장 규모는 지속적으로 성장하는 추세로, 2020년부터 2027 년까지 26.9% 성장할 것으로 예측되고 있다.
'IT 와 Social 이야기' 카테고리의 다른 글
[NIA] 데이터 기반 포스트 코로나 이슈 분석과 10대 메가트렌드 (0) | 2021.03.15 |
---|---|
[ETRI] 디지털 개인비서 동향과 미래 (0) | 2021.03.11 |
[KCA] IT 기술을 활용한 융합형 매장의 혁신 사례 (0) | 2021.03.07 |
[KISA] 메타버스 Metaverse (0) | 2021.03.07 |
[NIA] 오디오 기반 SNS '클럽하우스' 분석 (0) | 2021.02.22 |