Publications

Detailed Information

Scale-aware Monocular Visual-Inertial Depth Estimation and Odometry using Self-supervised Learning : 스케일 예측이 가능한 자가지도식 딥러닝 기반의 단안 시각-관성 깊이 추정 및 오도메트리 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이충근

Advisor
김현진
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Deep LearningDepth EstimationVisual-Inertial OdometrySelf-supervised Learning
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 기계항공공학부, 2023. 8. 김현진.
Abstract
This dissertation addresses deep-learning-based end-to-end self-supervised scale-aware depth estimation and odometry in the visual-inertial system. For real-world applications with a single monocular camera, scale ambiguity is an important issue. Because self-supervised data-driven approaches that do not require additional data containing scale information cannot avoid the scale ambiguity, state-of-the-art deep-learning-based methods address this issue by learning the scale information from additional sensor measurements. In that regard, inertial measurement unit (IMU) is a popular sensor for various mobile platforms due to its lightweight and inexpensiveness. However, unlike supervised learning which can learn the scale from the ground-truth information, learning the scale from IMU is challenging in self-supervised setting.
In this dissertation, deep-learning-based scale-aware self-supervised monocular visual-inertial depth estimation and odometry method is proposed. I focus on overcoming the scale ambiguity in the self-supervised setting. For the training data, the sequence of images and raw IMU measurements are utilized and neither ground-truth depth nor the stereo image pairs are provided. The proposed method works in an end-to-end manner and does not rely on the classical visual-inertial navigation to learn the scale. For that, I design the IMU preintegration loss which integrates IMU measurements and some regulation losses to predict the scale-aware ego-motion. Next, the network is proposed receiving IMU measurements as an input estimating the bias of the IMU and the gravity in the body coordinate to perform IMU preintegration from raw IMU measurements. Lastly, a data augmentation technique is proposed, which is compatible with the visual-inertial system. The proposed algorithm is validated in comparison with state-of-the-art algorithms in the KITTI dataset and the indoor experiment, by demonstrating its comparable performance.
본 논문은 영상 및 관성 정보를 활용하여 딥러닝 기반의 스케일 예측 깊이 및 항법 추정을 자가지도식으로 학습하는 기법을 다룬다. 단안 카메라를 활용한 실제 활용에 있어서, 스케일 모호성은 중요한 문제이다. 추가적인 데이터를 활용하지 않는 자가지도식 학습 기법은 자가지도식 학습 기법은 스케일 모호성을 피할 수 없기 때문에, 최신 딥러닝 기반 기법은 이를 추가 센서 정보로 부터 스케일 정보를 학습하는 방식으로 해결해 왔다. 이러한 측면에서, 관성항법센서는 가볍고 저렴하다는 측면에서 다양한 이동형 플랫폼에서 많이 사용되어 오고 있다. 그러나, 자가지도식 학습 세팅에서 IMU로 부터 스케일을 학습하는 것은, 참값 정보로 부터 스케일을 학습하는 지도식 학습과는 다르게 도전적인 문제이다.
본 논문에서는 딥러닝 기반으로 스케일 정보를 추정할 수 있는 자가지도식 단안 영상관성 깊이 추정 및 항법 시스템을 제안한다. 특히, 자가지도식 세팅에서 단안 영상의 스케일 모호성을 해결하는 방법에 집중하여, 참값 깊이나 스테레오 이미지가 학습 데이터로 주어지지 않고 단순히 단안 영상 및 관성센서만 주어진 상황에서 스케일을 포함한 깊이 및 위치 추정 기법을 수행하였다. 제안한 기법은 학습 과정에서 end-to-end로 동작하며, 기존의 영상관성항법 시스템의 도움을 받지 않아도 된다. 이를 위하여, 관성센서 값을 적분하는 손실 함수를 설계하고, 관성 센서를 입력으로 받아 관성센서의 바이어스 및 중력의 방향을 추정하는 네트워크를 설계한다. 또한, 관성센서 정보가 있는 상황에서도 활용할 수 있는 데이터 보강 기법을 제안하였고, 유명한 데이터셋인 KITTI 데이터셋에서 최신 학습기반 및 기존 관성영상항법 알고리즘과의 비교 및 추가 실험을 통해 비교할만한 성능을 보임을 검증하였다.
Language
eng
URI
https://hdl.handle.net/10371/196321

https://dcollection.snu.ac.kr/common/orgView/000000177300
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share