Publications

Detailed Information

효율적인 야외환경 의미론적 영상분할을 위한 깊이정보 활용 방법 : Exploiting Depth information for efficient Outdoor Semantic Segmentation

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

우명우

Advisor
서승우
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
의미론적 영상분할언텐션인공신경망딥러닝
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 서승우.
Abstract
Semantic segmentation은 이미지를 이해하는 가장 포괄적인 방법이다. 이미지의 모든 픽셀에 분류하고자 하는 semantic 클래스 레이블을 부여하는 것이다. 자율 주행 및 로봇 등을 운용하는 관점에서 인식의 영역을 담당하기 때문에 매우 중요한 기술이다. 최근에는 RGB 이미지뿐만 아니라 깊이 정보를 추가로 이용해서 Semantic segmentation의 성능을 향상하려는 시도가 이루어지고 있다. 하지만 대부분의 시도는 야외보다는 실내 환경에서 많이 시도되고 있다. 또한 쉽게 깊이 정보를 활용하기 힘든 부분들이 있다. 그 이유는 첫째, 야외에서는 정확하고 밀도 높은 깊이 정보를 얻는 것이 상대적으로 더 어렵다. 둘째, 깊이 정보를 network의 입력으로 처리할 경우 추가적인 인코더를 요구하기 때문에 새로운 구조의 네트워크 설계가 필요하다.
본 논문에서는 앞서 언급한 어려움을 극복하고, 효율적인 깊이 정보 사용을 위한 방안을 모색한다. 이를 위해서 깊이 및 픽셀 위치 기반 어텐션(Depth and Pixel-distance based Attention : DPA) 모듈을 제안한다. 이 모듈은 깊이 정보를 활용해서 픽셀 사이의 상관관계를 추론하는 데 사용한다. 픽셀의 클래스 유사성은 동일한 객체에 속하는 픽셀이 유사한 깊이 값을 갖는다는 사실을 이용하여 계산된다. 깊이의 상대적 차이만 고려되기 때문에 제공된 깊이 정보의 정확성에 대해서 상대적으로 강건하다. 또한, DPA는 기존의 RGB 기반 segmentation 네트워크에 적용할 수 있는 간단한 플러그인 모듈이다. 깊이 정보처리를 위해서 새로운 네트워크 설계가 필요로 하지 않고 기존에 잘 작동하는 RGB 기반의 네트워크에 쉽게 적용이 가능하다. 또한 깊이 정보 처리를 위한 추가적인 인코더가 필요하지 않기 때문에 계산 측면에서도 훨씬 효율적이다. DPA는 깊이정보를 입력정보로 활용하지 않고, RGB 기반의 feature에 깊이 정보를 간접적으로 제공한다. 이를 통해서 기존의 RGB 기반의 feature를 강화한다.
다양한 baseline 네트워크에 DPA모듈을 적용해서 성능과 효율성을 검증하였다. baseline 모델의 종류와 관계없이, Semantic segmentation의 성능을 개선하였고, 깊이 정보를 입력으로 활용하는 기존 방식에 비해서 연산량 측면에서 효율적임을 검증하였다.
Semantic segmentation is the most comprehensive way to understand im ages. It is to assign a semantic class label to every pixel in the image. It is a very important technology because it corresponds to recognition from the perspec tive of operating autonomous driving and robots. Recently, attempts have been made to use depth information to improve the performance of semantic segmen tation. However, most attempts have been made in indoor environments rather than outdoors. There are also reasons that make depth information difficult to exploit easily. First, it is difficult to obtain accurate and dense depth information in an outdoor environment. Second, when processing depth information as in put to a network, an additional encoder is required, so a new network design is required.
In this paper, we overcome the difficulties and find ways to use depth in formation efficiently. To this end, we propose a novel Depth and Pixel-distance based Attention (DPA) module. This module utilizes depth information and uses it to infer correlations between pixels. It is computed using the fact that pixels belonging to the same object have similar depth values. It is robust to the accu racy of depth information because only relative differences in depth are used. In addition, DPA is a simple plug-in module that can be easily exploited to exist ing RGB segmentation networks. It does not require a new network design for depth information processing and can be easily applied to existing RGB-based networks that work well. It is also much more efficient from a computational point of view, since no additional encoder is required to process the depth in formation. DPA does not use depth information as input, but indirectly provides depth information to RGB-based features. Through this, the RGB-based feature is augmented.
Performance and efficiency are verified by applying the DPA module to var ious baseline networks. Regardless of the type of baseline model, we improved the performance of semantic segmentation and verified that it is more efficient in terms of the amount of computation compared to the existing method of using depth information as an input.
Language
kor
URI
https://hdl.handle.net/10371/193308

https://dcollection.snu.ac.kr/common/orgView/000000174729
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share