IT 와 Social 이야기

[IITP] Visual SLAM 기술개발 동향

manga0713 2021. 11. 15. 10:59

[ 다양한 센서들을 이용한 SLAM 결과 ]

 

 

- 출처 : [IITP] Visual SLAM 기술개발 동향 - 김정호 한국전자기술연구원 책임연구원

 

file7661325796414247726-201801.pdf
3.39MB

 

 

 

I. 서론

 

- 미지의 환경에서 다양한 센서들을 이용하여 위치를 추정하고 3차원 환경 지도를 생성하는 기술을 SLAM(Simultaneous Localization and Mapping) 또는 SfM(Structure from Motion)이라고 한다.

 

[ SLAM을 이용한 자율주행 예시 ]

 

- 카메라를 이용하여 SLAM을 수행할 경우 시간이 지남에 따라서 오차가 누적되므로 최종 생성된 지도와 위치 추정의 오차가 매우 커지는 경우가 있다. 오차가 발생하는 원인은 주변 환경과 조도 변화에 따라서 센서 관측치(observation)에 대한 노이즈 또는 모호성(ambiguity)이 존재하기 때문이다. 이러한 문제점을 극복하기 위한 Visual SLAM 기술은 크게 기하학적 방법, 학습을 이용한 방법 그리고 학습과 기하학적 방법을 융합한 하이브리드 방법으로 나눌 수 있다.

 

 

II. 기하학적 Visual SLAM 방법론

 

- 최적화 기반의 방법은 크게 두 가지로 나눌 수 있다.

 

  • 첫 번째 방법은 영상으로부터 특징점 을 추출하고 이를 영상 시퀀스에서 추적하여 초기 카메라의 위치를 계산하고 3차원 지도를 생성한다. 그리고 3차원 지도를 구성하는 랜드마크의 위치들을 카메라의 추정된 자세로 재 투영(re-projection)시켜서 영상으로부터 추적된 특징점의 좌표와의 거리를 최소화하도록 갱신한다.
  •  
  • 또 다른 방법으로는 두 장의 영상으로부터 카메라의 움직임과 환경에 대한 3차원 정보를 획득하기 위해서 첫 번째 영상을 두 번째 위치에서의 영상으로 변환하였을 때 실제 획득한 두 번째 영상과의 밝기 차이를 최소화하도록 최적화를 수행하여 개선하는 Direct SLAM 방법이 있다[7].

[ Feature-based SLAM과 Direct SLAM의 결과 ]

 

- 특징점 기반 방법의 경우 영상에서 특정 화소들을 이용하여 카메라 위치를 추정하고 3차원 지도를 생성함으로써 처리속도가 빠르다는 장점이 있다. 그리고 특징점의 오정합(false matching)으로 발생하는 문제들을 RANSAC(Random Sample Consensus) 기반의 방법을 활용하여 제거하는 것이 가능하다.

 

- Direct SLAM 방법의 경우 처리속도가 느리나 환경을 조밀하게 모델링하는 것이 가능하며 특징점이 없는 균질한(homogeneous) 환경에서 성능이 우수하다.

 

 

III. 딥러닝 기반 Visual SLAM 방법론

 

- 딥러닝 기반의 SLAM 기술들은 크게 오도메트리(odometry) 추정과 매핑(mapping)으로 분류된다. 오도메트리 추정은 두 영상 사이의 상대적인 자세 변화를 추정하는 기술이고, 매핑은 주변 환경에 대한 공간 모델을 생성하는 것을 의미한다.

 

1. 오도메트리 추정

 

- 지도 학습은 연속적인 영상과 그에 대응하는 카메라 자세 변화에 대한 학습데이터가 존재하는 경우 입력 영상에 대한 자세 변화의 출력을 제공하는 종단간(end-to-end) 딥러닝 기술이다. 지도 학습 기반의 방법으로 영상에서 특징 정보를 추출하기 위한 CNN(Convolutional Neural Network)과 순차적 자세 변화 추정을 위한 RCNN(Recurrent Convolutional Neural Network)을 이용하여 입력 영상 시퀀스에 대한 카메라 자세를 출력하는 기술이 제안되었다.

 

- 비지도 학습 기반의 방법은 주어진 영상 시퀀스에 대한 자세 학습데이터가 없는 경우 뎁스 정보를 추출하고 자세 변화를 추정하기 위한 딥러닝 기술로서 계산된 자세 변화와 뎁스로부터 다른 시점의 영상을 합성하여 그 시점의 실영상과 비교를 통해 손실함수를 정의하고 학습한다.

 

[ 지도 학습과 비지도 학습 기반의 오도메트리 추정 기술 ]

 

 

2. 매핑

 

- 매핑은 센서 데이터를 이용하여 주변 환경에 대한 3차원 형상 또는 구조를 표현하는 기술로서 지도를 구성하는 기본 요소에 따라서 뎁스(depth), 포인트(point), 메쉬(mesh), 복셀 (voxel) 등으로 나뉜다.

 

- 뎁스 생성 기술은 지도 학습과 비지도 학습 방법으로 나눌 수 있다.

 

- 지도 학습 방법은 방대한 양의 영상과 해당 뎁스 데이터를 학습하여 입력영상으로부터 바로 뎁스를 예측하는 기술로 전역과 지역적으로 뎁스를 예측하는 두 개의 네트워크를 이용하여 정확도를 개선하는 기술이 제안되었다. 하지만 학습을 위한 영상과 그에 대응하는 정확한 뎁스 영상을 확보하는 것은 어려운 일이다.

 

- 이 문제를 해결하기 위해 비지도 학습 방법에서는 뎁스 영상 대신에 양안 카메라로부터 획득한 영상 을 학습 데이터로 활용한다. 구체적으로는 왼쪽 영상을 오른쪽 영상으로 변환하기 위한 시차 (disparity)와 오른쪽 영상을 왼쪽 영상으로 변환하는 시차를 계산하고 이를 왼쪽-오른쪽 일관성(left-right consistency) 제약조건을 이용하여 네트워크를 구성함으로써 향상된 뎁 스를 생성하는 기술을 제안하였다.

 

[ 지도 학습과 비지도 학습을 이용한 매핑 기술 ]

 

 

IV. 하이브리드 Visual SLAM 방법론

 

- 하이브리드 방식은 Visual SLAM을 구성하고 있는 여러 단계 중 일부를 딥러닝 방법으로 계산하고 다른 일부는 고전적인 기하학적 방법을 활용한다.

 

- 딥러닝 기반의 방법은 영상에서 특징 정보를 추출하기 어려운 환경에서 더 나은 결과를 제공하지만, 특징 정보가 풍부한 환경에서는 고전적인 방법의 성능이 우수하다.

 

[  딥러닝 기반의 뎁스 생성과 VO를 융합한 하이브리드 Visual SLAM 기술 ]

 

- 또 다른 하이브리드 방법으로는 뎁스와 광류(optical flow)를 딥러닝 기반의 학습으로부터 계산하고, 이 결과물을 기하학적 오도메트리 알고리즘에 적용하여 카메라의 자세 변화를 추정하였다.

 

- 딥러닝 기술로부터 움직이거나 또는 변화가 있는 부분을 검출하여 기존 특징점 기반과 Direct SLAM의 성능을 개선하는 방법도 제안되었다.

 

- 최근에는 딥러닝 기술과 기존 필터링 기반의 방법이 융합된 SLAM 기술로서 칼만 필터와 입자 필터를 딥러닝으로 학습하는 기술들이 개발되었고, 이는 카메라의 자세 변화 추정 기술에 적용되어 성능이 개선됨을 보여 주었다.

 

 

V. Visual SLAM 기술 시장 동향

 

- 글로벌 디지털 맵과 SLAM 시장의 규모 및 전망

 

 

- 글로벌 SLAM 시장의 용도별 시장 규모 및 전망