Publications

Detailed Information

Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding : 장면 객체 스펙트럼 기반의 계층적 탐색을 이용한 시각-언어 네비게이션

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

황민영

Advisor
오성회
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Visual NavigationVision-and-Language NavigationComputer VisionObject DetectionHierarchical ExplorationFourier TransformCross- Modal Transformer
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 8. 오성회.
Abstract
Vision-and-Language Navigation (VLN) is an emerging field that focuses on developing intelligent agents capable of following natural-language instructions to navigate based on visual observations of the environment. The main challenge in VLN is how to understand natural-language instructions in an unseen environment. The limitation of conventional VLN algorithms is that if an action is mistaken, the agent fails to follow the instructions or explores unnecessary regions, leading the agent to an irrecoverable path. This thesis presents Meta-Explore, a hierarchical navigation method deploying an exploitation policy to correct misled recent actions. We show that an exploitation policy, which moves the agent toward a well-chosen local goal among unvisited but observable states, outperforms a method which moves the agent to a previously visited state. We also highlight the demand for imagining regretful explorations with semantically meaningful clues. The key to our approach is understanding the object placements around the agent in spectral-domain. Specifically, we present a novel visual representation, called scene object spectrum (SOS), which per- forms category-wise 2D Fourier transform of detected objects. Combining exploitation policy and SOS features, the agent can correct its path by choosing a promising local goal. We evaluate our method in three VLN benchmarks: R2R, SOON, and REVERIE. Meta-Explore outperforms other baselines and shows significant generalization performance. In addition, local goal search using the proposed spectral-domain SOS features significantly improves the success rate by 17.1% and SPL by 20.6% against the state-of-the-art method of the SOON benchmark.
시각-언어 네비게이션(vision-and-language navigation, VLN)은 환경에 대한 시각 정보를 기반으로 사람으로부터 주어진 자연어 명령을 따라 길을 찾는 지능형 에이전 트를 개발하는 분야이다. 시각-언어 네비게이션 분야의 주요 과제는 학습에 사용되지 않은 새로운 환경에서도 주어진 명령을 효과적으로 이해하는 것이다. 기존 시각-언어 네비게이션 방법론들의 한계는 에이전트가 잘못된 행동을 수행하여 올바른 길로부 터 벗어났을 때, 불필요한 영역을 탐색하게 되거나 돌이킬 수 없는 경로로 진입하는 것이다. 본 논문에서는 에이전트가 잘못된 행동을 수행하였을 때, 이를 감지하고 원래 의 경로를 다시 찾아갈 수 있도록 하는 익스플로이테이션 정책(exploitation policy) 을 이용하는 메타-익스플로어라는 계층적 탐색 방법을 제안한다. 본 논문에서는 에 이전트가방문한적은없지만관찰은가능했던장소들중가장적절한단기목표지점 (local goal)을 설정하는 방식을 제안하며, 해당 방식이 기존 논문들의 이전에 방문했 던 장소로 되돌아가는 회귀적 방식보다 성능적으로 우수함을 보인다. 또한, 잘못된 탐색을 돌이킬 때에 물체와 같은 의미론적 단서를 가지고 단기 목표 지점을 찾아야 한다는 것을 강조한다. 본 논문에서 제안하는 방식의 핵심은 에이전트 주변에 배치된 물체들을 주파수 영역의 정보로 변환하여 이해하는 것이다. 구체적으로는, 객체별 이차원 푸리에 변환을 수행하여 구하는 장면 객체 스펙트럼(scene object spectrum, SOS)이라는 새로운 시각적 표현 방식을 제안한다. 본 논문에서는 장면 객체 스펙트 럼을 계층적 탐색에 활용하였을 때 에이전트가 단기 목표 지점을 보다 성공적으로 찾아내어 잘못된 경로를 수정할 수 있음을 보인다. 본 제안 방식은 R2R, REVERIE, SOON 총 세 가지 시각-언어 네비게이션 벤치마크에서 성능을 평가하였다. 본 논문에 서 제안하는 메타-익스플로어는 기존 방식들보다 높은 성능뿐만 아니라 매우 우수한 일반화 성능을 통해 에이전트가 경험해보지 못한 환경에서도 성공적으로 동작함을 보인다. 특히, SOON 벤치마크에서는 기존 최고 수준의 알고리즘 대비 네비게이션 성공률이 17.1%, 경로 길이 대비 성공률(success weighted by path length, SPL)이 20.6% 향상되었다.
Language
eng
URI
https://hdl.handle.net/10371/196439

https://dcollection.snu.ac.kr/common/orgView/000000178126
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share