Publications

Detailed Information

Online Multiple Objects Tracking with a MAP Optimization : 최대 사후 확률 최적화를 통한 다중 물체 추적 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김수완

Advisor
최진영
Major
공과대학 전기·컴퓨터공학부
Issue Date
2014-08
Publisher
서울대학교 대학원
Keywords
visual trackingonline multiple target trackingdata associationmatching graphMAP optimizationmultiple cameras물체 추적온라인 물체 추적데이터 연관기법매칭 그래표사후확률최대화 기법다중 카메라
Description
학위논문 (박사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2014. 8. 최진영.
Abstract
이상적인 영상감시 시스템은 영상 감시의 본연의 목적에 부합하기 위해서는 범 죄나 사건에 대한 즉각적인 대응이 보장되어야 한다. 이러한 이유로 움직이는 물 체를 탐지하거나 추적을 하는 등의 영상 감시 알고리즘은 온라인으로 동작하는 것이 더 선호 된다. 일반적으로 이러한 온라인 알고리즘들은 인과관계 (causality condition) 을 어길 수 없기 때문에 과거의 입력 데이터만을 사용하기 때문에 영상 전체를 사용하는 알고리즘들 (일괄 처리에 기반한 알고리즘) 에 비해 낮은 성능을 보일 수 밖에 없다. 하지만 일괄 처리에 기반한 알고리즘들은 연산 량과 연산 시간이 많기 때문에 영상 감시 시스템 에서는 여전히 온라인 알고리즘이 더 요구된다. 단일 물체에 대한 추적 알고리즘은 일반적으로 온라인으로 동작하 는 반면에 대부분의 다중 물체 추적 방법은 그 어려움 때문에 일괄 처리방법을 사용하는 방향으로 개발되고 있다. 일괄 처리 기반의 알고리즘이 더 널리 이용 되는 이유는 각각의 단일 물체를 추적하며 동시에 그들을 구별하는 데에 필요한 정보양이 단일 물체에 비해서 훨씬 많기 때문에 좋은 성능을 위해선 많은 양의 데이터가 필요하기 때문이다. 다수의 물체를 시간적으로 추적하는 데 있어 많 은 양의 데이터를 동시에 고려해야 하는 어려움을 해결하기 위해 일반적으로 데이터 연관 기법이 많이 사용된다.
본 논문에서는 먼저 복잡한 상황에서도 단일 카메라만을 이용하여 다중 물 체를 강인하게 추적하는 방법을 개발하였다. 시간적으로 지연된 결과나 미래의 입력 데이터 없이 우리는 현재 시간의 입력 데이터와 바로 이전 시간의 추적 모델간의 온라인 데이터 연관 기법을 통해 강인한 성능을 보이면서 일괄 처리 기법에 비해 빠른 속도로 알고리즘을 수행한다. 우리는 다중 물체 추적 문제를 그래표에서 물체간 연결을 찾는 문제로 변환하고 이 문제를 풀기 위하여 물체의 크기, 중심간 거리, 움직임, 모양 정보 등을 이용하여 사후확률을 정의하였다. 그 결과 매우 혼잡한 환경에서도 정보양이 적은 머리 부분 탐지기를 잘 활용하여 좋은 추적 성능을 보였다. 또한 본 논문에서 제안된 방법은 현재의 탐지 결과가
기존의 추적 모델로 설명되지 않을 시 자동적으로 새로운 추적 모델을 생성하고 물체 간의 겹침 등으로 만들어 질 수 있는 부정확한 정보에 의한 추적 모델의 오염을 막기 위한 겹침 추정 알고리즘을 사용하였다. 제안된 단일 카메라 기반 다중 물체 추적 알고리즘의 성능을 보이기 위해 다양한 데이터 셋에서 실험을 하고 기존 알고리즘과 비교를 하였다.
이어 본 논문에서는 단일 카메라에서 제안된 방법을 확장하여 다중 카메라에 서 다중 물체를 추적하는 온라인 데이터 연관 기법을 제안하였다. 다중 카메라는 물체간 겹침이나 배경 뒤에 가려짐이 발생할 때 단일 카메라 보다 좋은 양질의 정보를 제공할 수 있지만 데이터 연관 알고리즘의 입력 데이터에 대한 관점에서 보면 이러한 증가된 정보량이 항상 더 선호되는 것은 아니다. 다중 카메라에서의 데이터 연관 기법을 수행하는 것은 데이터를 시,공간적으로 동시에 연결을 해 야 하므로 단일 카메라에서의 데이터 연관 기법보다 훨씬 복잡하다. 이 문제의 가능한 해 공간 (solution space) 가 매우 크기 때문에 이 문제는 NP-난해 문제 (NP-hard) 로 알려져 있다. 하지만 대부분의 기존의 방법들은 정확도를 위해서 영상 전체를 모두 사용하는 일괄 처리 기반의 알고리즘을 채택함으로써 문제의 복잡도를 매우 크게 한다는 단점이 있다. 이러한 기존 알고리즘들의 문제를 풀기 위하여 우리는 온라인 데이터 연관기법을 단일 카메라와 마찬가지로 그래표에서 물체간 시,공간적 연결을 찾는 문제로 바꾸고 이를 위하여 사후확률 최대화 방법 을 통하여 이를 해결하였다. 제안된 방법은 현재 시간의 탐지 결과와 바로 이전 시간까지의 추적 모델만을 연결함으로써 온라인 어플리케이션에 적용할 수 있 다는 장점이 있다. 데이터간의 연결 및 유사도를 측정하기 위하여 영상 내에서의 위치, 모양, 속도 정보 및 카메라 정보를 활용한 3D 좌표 상에서의 위치 정보를 사용하였다. 마지막으로 본 논문에서는 여러 다양한 데이터 셋에 대해 제안된 알고리즘을 실험함으로써 기존의 뛰어난 알고리즘들과 비교성능을 보였다.
In an ideal surveillance scenario, the instant response to the crime/incident should be guaranteed for its purpose. For this reason, online approach is more preferred for the algorithms implemented in a surveillance system, such as moving objects detection and object tracking. Generally, online algorithms cannot break causality condition and only use past observations, which lead to lower performance than batch algorithms with future observations. However, online algorithms are
more demanded than batch algorithms in a surveillance system because batch algorithms require heavy computation time. Moreover, batch algorithms need the whole video input, which makes the batch algorithms more suitable for video analysis, not for the surveillance system. While online tracking for the single object is quite normal and most current researches track its target object in online
manner, most multiple objects tracking methods have been researched with offline scheme due to their heavy computation and lack of causality. Another reason why
the offine scheme is widely adopted in the field of the multiple objects tracking is that the required quantity of clues to track each object and distinguish them
simultaneously is much larger than the single object tracking problem. To handle this difficulty, the data association method is generally used to find temporal association of each object over frames. However, this complexity still increases when several number of cameras are used and both spatial and temporal association
should be achieved.
In this thesis, we propose an online data association approach for tracking multiple number of people with both single camera and multiple cameras. Without delayed decision or future data input, we perform online data association between the detection results and tracking models and show robust performance with a faster speed than offline data association. For multiple target tracking in the single camera case, we formulate an online MAP (Maximum A posteriori Probability) problem to find the temporal association among detection observations at the current frame and the tracking models from the last frame in the same image domain. Because a single camera can provide a limited information, the multiple target tracking with a single camera is especially weak for occlusions and overlaps. To overcome these limitations, we use the head detector which is robust against occlusions and overlaps. With head detection results and the tracking models, we encode the problem of multiple target tracking to the problem of finding matching in a graph and solve the matching problem on the formulated MAP problem considering object size, center distance, motion and appearance. During temporal association process to track multiple objects, our solution initializes new tracking model automatically. Moreover, the corruption of tracking models by missed detections from occlusions is prevented by selective update of the tracking model through occlusion reasoning method. This occlusion reasoning method prevents the tracking model from being corrupted with unreliable information. Since the proposed MAP formulation only uses the last tracking models and current observations, this proposed MAP formulation can
be solved without heavy computation. In order to demonstrate the validity of the proposed method, we compare our method with the state-of-the-art methods and
show improvement in performance.
Extending the proposed framework for the single camera case, we also propose an online framework to track multiple objects with multiple number of cameras. Multiple cameras can provide more information than a single camera for tracking especially when occlusions among objects happen or overlaps behind backgrounds occur. However, in the perspective of association, increased amount of information is not always preferred. The problem of multiple target tracking in multiple cameras is much more complicated than single camera data association becaus
Language
English
URI
https://hdl.handle.net/10371/119009
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share