Publications

Detailed Information

Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding : 장면 객체 스펙트럼 기반의 계층적 탐색을 이용한 시각-언어 네비게이션

DC Field Value Language
dc.contributor.advisor오성회-
dc.contributor.author황민영-
dc.date.accessioned2023-11-20T04:22:03Z-
dc.date.available2023-11-20T04:22:03Z-
dc.date.issued2023-
dc.identifier.other000000178126-
dc.identifier.urihttps://hdl.handle.net/10371/196439-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000178126ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 8. 오성회.-
dc.description.abstractVision-and-Language Navigation (VLN) is an emerging field that focuses on developing intelligent agents capable of following natural-language instructions to navigate based on visual observations of the environment. The main challenge in VLN is how to understand natural-language instructions in an unseen environment. The limitation of conventional VLN algorithms is that if an action is mistaken, the agent fails to follow the instructions or explores unnecessary regions, leading the agent to an irrecoverable path. This thesis presents Meta-Explore, a hierarchical navigation method deploying an exploitation policy to correct misled recent actions. We show that an exploitation policy, which moves the agent toward a well-chosen local goal among unvisited but observable states, outperforms a method which moves the agent to a previously visited state. We also highlight the demand for imagining regretful explorations with semantically meaningful clues. The key to our approach is understanding the object placements around the agent in spectral-domain. Specifically, we present a novel visual representation, called scene object spectrum (SOS), which per- forms category-wise 2D Fourier transform of detected objects. Combining exploitation policy and SOS features, the agent can correct its path by choosing a promising local goal. We evaluate our method in three VLN benchmarks: R2R, SOON, and REVERIE. Meta-Explore outperforms other baselines and shows significant generalization performance. In addition, local goal search using the proposed spectral-domain SOS features significantly improves the success rate by 17.1% and SPL by 20.6% against the state-of-the-art method of the SOON benchmark.-
dc.description.abstract시각-언어 네비게이션(vision-and-language navigation, VLN)은 환경에 대한 시각 정보를 기반으로 사람으로부터 주어진 자연어 명령을 따라 길을 찾는 지능형 에이전 트를 개발하는 분야이다. 시각-언어 네비게이션 분야의 주요 과제는 학습에 사용되지 않은 새로운 환경에서도 주어진 명령을 효과적으로 이해하는 것이다. 기존 시각-언어 네비게이션 방법론들의 한계는 에이전트가 잘못된 행동을 수행하여 올바른 길로부 터 벗어났을 때, 불필요한 영역을 탐색하게 되거나 돌이킬 수 없는 경로로 진입하는 것이다. 본 논문에서는 에이전트가 잘못된 행동을 수행하였을 때, 이를 감지하고 원래 의 경로를 다시 찾아갈 수 있도록 하는 익스플로이테이션 정책(exploitation policy) 을 이용하는 메타-익스플로어라는 계층적 탐색 방법을 제안한다. 본 논문에서는 에 이전트가방문한적은없지만관찰은가능했던장소들중가장적절한단기목표지점 (local goal)을 설정하는 방식을 제안하며, 해당 방식이 기존 논문들의 이전에 방문했 던 장소로 되돌아가는 회귀적 방식보다 성능적으로 우수함을 보인다. 또한, 잘못된 탐색을 돌이킬 때에 물체와 같은 의미론적 단서를 가지고 단기 목표 지점을 찾아야 한다는 것을 강조한다. 본 논문에서 제안하는 방식의 핵심은 에이전트 주변에 배치된 물체들을 주파수 영역의 정보로 변환하여 이해하는 것이다. 구체적으로는, 객체별 이차원 푸리에 변환을 수행하여 구하는 장면 객체 스펙트럼(scene object spectrum, SOS)이라는 새로운 시각적 표현 방식을 제안한다. 본 논문에서는 장면 객체 스펙트 럼을 계층적 탐색에 활용하였을 때 에이전트가 단기 목표 지점을 보다 성공적으로 찾아내어 잘못된 경로를 수정할 수 있음을 보인다. 본 제안 방식은 R2R, REVERIE, SOON 총 세 가지 시각-언어 네비게이션 벤치마크에서 성능을 평가하였다. 본 논문에 서 제안하는 메타-익스플로어는 기존 방식들보다 높은 성능뿐만 아니라 매우 우수한 일반화 성능을 통해 에이전트가 경험해보지 못한 환경에서도 성공적으로 동작함을 보인다. 특히, SOON 벤치마크에서는 기존 최고 수준의 알고리즘 대비 네비게이션 성공률이 17.1%, 경로 길이 대비 성공률(success weighted by path length, SPL)이 20.6% 향상되었다.-
dc.description.tableofcontentsAbstract i

Chapter 1 Introduction 1
1.1 StudyBackground 1
1.2 PurposeofResearch 2

Chapter 2 Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation
Using Scene Object Spectrum Grounding 3
2.1 RelatedWork 7
2.1.1 Vision-and-LanguageNavigation 7
2.1.2 Exploration-Exploitation 7
2.1.3 VisualRepresentations 8
2.2 Method 9
2.2.1 ProblemFormulation 9
2.2.2 Meta-Explore 10
2.2.3 TrainingDetails 18
2.3 NavigationExperiments 19
2.3.1 ExperimentSettings 19
2.3.2 EvaluationMetrics 20
2.3.3 Baselines and Implementation Details 20
2.3.4 Comparison with Navigation Baselines 21
2.3.5 LocalGoalSearchusingSOSFeatures 23
2.3.6 AblationStudy 25
2.4 Discussion 25

Appendix A
Appendices 26
A.1 ModelDetails 26
A.1.1 AlgorithmDetails 26
A.1.2 ExploitationModule 26
A.1.3 ImplementationDetails 30
A.2 ExperimentSetup 31
A.2.1 DatasetStatistics 31
A.2.2 DataPreprocessing 31
A.2.3 Baselines 32
A.3 NavigationExperiments 33
A.3.1 DetailedAnalysesinR2R 33
A.3.2 DetailedAnalysesinSOON 34
A.3.3 Evaluation Results in REVERIE benchmark 35
A.3.4 LocalGoalSearch 38
A.4 AblationStudy 38
A.4.1 Language-triggered Hierarchical Exploration 38
A.4.2 Image-Goal Navigation in Continuous Domain 41
A.4.3 VLNinContinuousDomain 46

요약 60
-
dc.format.extentxii, 76-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectVisual Navigation-
dc.subjectVision-and-Language Navigation-
dc.subjectComputer Vision-
dc.subjectObject Detection-
dc.subjectHierarchical Exploration-
dc.subjectFourier Transform-
dc.subjectCross- Modal Transformer-
dc.subject.ddc621.3-
dc.titleMeta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding-
dc.title.alternative장면 객체 스펙트럼 기반의 계층적 탐색을 이용한 시각-언어 네비게이션-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorMinyoung Hwang-
dc.contributor.department공과대학 전기·정보공학부-
dc.description.degree석사-
dc.date.awarded2023-08-
dc.contributor.major제어-
dc.identifier.uciI804:11032-000000178126-
dc.identifier.holdings000000000050▲000000000058▲000000178126▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share