Publications

Detailed Information

Robust Visual Tracking via Learned Model Adaptation : 학습된 모델 갱신 기법을 사용한 강인한 물체 추적

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최장훈

Advisor
이경무
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
visual trackingobject trackingreinforcement learningmeta learning물체 추적객체 추적강화학습메타학습컨티뉴얼 학습준지도학습
Description
학위논문 (박사) -- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2021. 2. 이경무.
Abstract
본 학위 논문에서는 물체 추적 알고리즘들에서 사용되는 모델 갱신 기법의 문제를 해결하기 위한 방법론을 제안한다.
기존 물체 추적 알고리즘들은 물체 추적 문제를 객체 검출을 통한 추적 문제 (tracking-by-detection) 로 간주하여 왔으며, 이들은 특정 물체를 검출할 수 있는 검출기 모델을 주어진 비디오의 첫번째 프레임에서 학습하여 이 모델을 사용하여 비디오의 차후 프레임들에서 목표 물체를 검출하는 방식으로 물체 추적 문제를 해결하여 왔다.
하지만 이러한 모델은 물체의 변형, 크기 변화, 가려짐, 조명 변화, 배경 물체의 등장 등의 다양한 상황변화와 물체의 외양변화에 따라 추적에 어려움이 존재한다.
이러한 문제들을 해결하기 위해 기존 물체 추적 알고리즘들은 추적 도중에 물체의 변화한 외양과 배경 물체들에 대한 새로운 정보를 추적 과정에 반영하기 위해 모델 갱신 기법을 활용하여 왔다.
하지만 이러한 기법들에서 모델 갱신 과정은 소수의 학습 표본을 사용한 최적화 문제의 해결을 통해 주로 이루어지며, 경험적으로 얻어진 정규화 기법을 활용하기 때문에 모델의 과적합 문제와 오류 누적 문제가 물체 추적 과정에서 지속되는 문제점이 있다.

전술한 문제점들을 해결하기 위해 본 논문에서는 물체 추적 문제에서 사용되는 모델 갱신 기법에 대한 새로운 접근법들을 제시한다.
이에 대해 세 가지의 모델 갱신 기법들을 제안하며 각각은: (1) 강화학습 기법에 기반한 표본 선택기법, (2) 메타학습을 기반으로 한 피쳐 공간의 갱신기법, (3) 적응적 컨티뉴얼 메타학습 기반의 갱신기법이다.
제안한 방법론들은 심층 신경망 구조에 기반한 메타러너를 도입하여 다양한 장면변화와 상황변화에 대해 학습 과정에서의 과적합 문제와 오류 누적 문제를 줄이고자 하였으며, 메타러너는 경량화된 구조로 설계되어 전체 물체 추적 프레임워크가 실시간 속도로 동작할 수 있게 하였다.

첫번째로, 정책 네트워크를 메타러너로 활용하는 강화학습 기반의 표본 선택기법을 제안한다.
정책 네트워크는 주어진 장면에서 목표 물체를 검출하기 위해 여러 표본 중 사용하기에 가장 적합한 표본을 선택하는 의사결정을 학습한다.
다음으로, 메타러너 네트워크를 활용한 메타학습 기법을 제안하며, 여기서 메타러너는 손실함수의 그래디언트 정보를 활용해 목표 물체에 특화된 피쳐 공간을 구축한다. 메타러너 네트워크는 물체 추적기에 대해 적응적인 가중치와 채널 어텐션의 형태로 새로운 정보를 제공한다.
마지막으로, 컨티뉴얼 메타학습 기반의 기법에서는 초기 갱신과정과 온라인 갱신과정 두 가지 모두를 적응형 컨티뉴얼 메타학습 프레임워크로 모델한다.
메타러너는 물체 추적기가 새로운 학습 표본을 배울지, 아니면 기존 지식을 유지할지를 선택할 수 있도록 적응적으로 학습과정을 제어하는 역할을 학습한다.

제안하는 기법들을 물체 추적 알고리즘들에 적용해본 결과 유의미한 성능 향상을 얻을 수 있었으며, 면밀한 실험적 분석과 구성요소별 분석을 통해 유효성을 검증하였다.
또한 저명하면서 널리 사용되는 물체 추적 벤치마크들을 활용한 비교실험을 통해 다른 최신 물체추적 알고리즘들과 비교해서도 실시간 속도로 효율적으로 동작하면서 우수한 성능을 보여줌을 확인하였다.
In this dissertation, we address the model adaptation problem of visual tracking algorithms. Conventional tracking algorithms regard the visual tracking problem as a tracking-by-detection problem, which can be solved by formulating a target-specific detection model at the initial frame of a given video, and evaluating the model for the subsequent video frames. However, various challenges are associated with the model due to changes in circumstances such as target deformation, scale change, occlusion, illumination change, background clutter, etc. To deal with the aforementioned challenges, conventional tracking algorithms incorporate a model adaptation strategy to provide the model with new information regarding the target appearance and background distractor objects. Nonetheless, since these approaches are often conducted on a handful of self-labeled training examples through solving an optimization task involving hand-crafted regularization schemes, the risk of overfitting and error accumulation persist throughout the course of the tracking process.

In order to address the aforementioned problems, we introduce novel approaches to the model adaptation strategy for the visual tracking problem. Three types of model adaptation approaches are proposed, based on the following: (1) reinforcement learning based exemplar selection, (2) deep meta-learning based feature space update, (3) deep adaptive continual meta-learning based adaptation. The proposed approaches introduce deep neural network based meta-learners that can handle various scenes and circumstances with reduced overfitting and error accumulation, while the meta-learners are designed to be light-weight and can achieve real-time speeds for the overall visual tracking framework.

First, we propose a deep reinforcement learning based exemplar selection method that incorporates a policy network for its meta-learner. The policy network is trained to make decisions on selecting the adequate target exemplar that can be used to locate the target given a scene. Next, a deep meta-learning based method, which utilizes a meta-learner network to construct the target-specific feature space using the loss gradient information, is proposed. The meta-learner network provides the tracker with new information in the form of adaptive weights and channel attention. Finally, a deep continual meta-learning based method simultaneously models the initial and online adaptations under the adaptive continual meta-learning framework. The meta-learner is trained to adaptively regulate the learning process where the tracker can choose between learning new examples and retaining the previous knowledge.

Applying the proposed methods to visual tracking algorithms, significant performance gains are achieved and the effectiveness is validated by the extensive experimental evaluations and component-wise ablation analyses. Additionally, comparisons on well-known, widely used visual tracking benchmarks demonstrate the competitive performance against other state-of-the-art tracking algorithms, while efficiently running at real-time speeds.
Language
kor
URI
https://hdl.handle.net/10371/175352

https://dcollection.snu.ac.kr/common/orgView/000000165484
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share