Publications

Detailed Information

Mixture Model-based Density Estimation for Multi-Object Detection : 다중 객체 검출을 위한 혼합 모델 기반 밀도 추정

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

유재영

Advisor
곽노준
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
multi-object detectionmixture modeldensity estimationprobability distributiondeep neural network다중 객체 검출확률 분포혼합 모델밀도 추정심층 인공 신경망
Description
학위논문(박사) -- 서울대학교대학원 : 융합과학기술대학원 융합과학부(지능형융합시스템전공), 2021.8. 곽노준.
Abstract
다중 객체 검출은 입력 이미지 위에 존재하는 여러개의 객체를 찾는 문제를 의미한다. 이 다중 객체 검출에서 객체는 경계 박스와 객체의 클래스 정보로 표현된다. 이 때 경계 박스는 4개의 좌표 (왼쪽, 위, 오른쪽, 아래)로 구성된다. 심층 인공 신경망이 컴퓨터 비전 분야에 적용된 이 후로 다중 객체 검출 알고리즘은 상당한 발전을 이루었다.

이미지 분류 같은 컴퓨터 비전의 다른 문제들과 다르게 하나의 입력 이미지에 대한 다중 객체 검출 문제의 타겟의 수는 가변적이다. 이는 다중 객체 검출기의 학습을 어렵게 한다. 따라서, 다중 객체 검출 네트워크의 학습의 근본적인 문제는 ``어떠한 방법으로 서로 다른 이미지에 대해 가변적인 수의 경계 박스를 네트워크를 통해 학습 할 것인가''이다.

다양한 수의 타겟을 학습하기 위해서 이전의 다중 객체 감지기는 일반적으로 경계 상자 공간을 이산화하고 정답 경계 상자를 네트워크의 출력에 직접 할당하는 훈련 절차를 사용한다. 이 훈련 방법은 다양한 수의 경계 상자를 직접 모델링하지 않기 때문에 학습을 위해 일부 수작업이 요구되는 구성 요소와 절차를 필요로 한다. 하지만 이는 다중 물체 감지 훈련을 복잡하고 경험적으로 만든다.

이 논문에서 우리는 다양한 수의 타겟을 직접 모델링하고 다중 객체 탐지기 훈련의 복잡한 처리 및 휴리스틱을 줄이는 것을 목표로한다. 이를 위해 경계 상자의 밀도 추정 문제로 다중 객체 감지 작업을 재정의한다. 타겟를 네트워크 출력의 특정 위치에 직접 할당하는 대신 혼합 모델을 사용하여 입력 이미지에서 경계 상자의 확률 밀도를 추정하도록 네트워크를 훈련시킨다. 이를 위해 MDOD (mixture density object detector)라는 다중 물체 감지를 위한 새로운 네트워크와 밀도 추정 기반 학습을 위한 해당 목적 함수를 제안한다. 우리는 공개된 다중 객체 감지 데이터 세트에 MDOD를 적용하였다. 우리가 제안한 방법은 새로운 접근 방식으로 다중 물체 감지 문제를 처리 할뿐만 아니라 감지 성능 또한 향상시켰다.

또한, 이 논문에서 우리는 MDOD의 활용 사례들을 소개한다. 첫 번째로, 다중 물체 감지에서 기존의 non-maximum suppression 기반의 후 처리를 대체하기 위해 MDOD를 사용한다. 두 번째로, 다중 사람 포즈 추정 문제에 MDOD를 적용한다. 우리는 이러한 사례들을 통해 MDOD가 다중 물체 감지뿐만 아니라 다른 연구 주제에도 응용 가능함을 보였다.
Multi-object detection is a task finding multiple-objects on an input image. In multi-object detection, an object is represented as a bounding box with its class information. The bounding boxes consist of 4-coordinates (left, top, right, and bottom). Since convolutional neural networks have been developed, multi-object detection algorithms have achieved a substantial improvement.

Unlike the other computer vision tasks such as image classification, each input image has an inconsistent number of target bounding boxes and class labels in multi-object detection. This makes the training of multiple object detectors difficult. Thus, the fundamental problem in training a multi-object detection network is, How can the network learn varying number of bounding boxes in different input images?.

To learn varying number of bounding boxes, the previous multi-object detectors generally use the training procedure that discretizes the bounding box space and directly assigns the ground truth bounding boxes to the networks output. Since this training method does not directly model a variable number of bounding boxes, it requires some hand-crafted components and procedures additionally to the training, which makes the training too complicated and heuristic.

In this dissertation, we aim to directly model the varying number of bounding boxes and simplify the complex processing and heuristics of training multi-object detector. To this end, we reformulate the multi-object detection task as a problem of density estimation of bounding boxes. Instead of assigning each ground truth to specific locations of the network's output, we train a network by estimating the probability density of bounding boxes in an input image using a mixture model. For this purpose, we propose a novel network for multi-object detection called mixture density object detector (MDOD), and the corresponding objective function for the density-estimation-based training. We apply MDOD to the public multi-object detection dataset. Our proposed method not only deals with multi-object detection problems in a new approach, but also improves detection performances.

In addition, we introduce some applications of MDOD in other research topics. First, we use MDOD to replace non-maximum suppression-based post-processing in multi-object detection. Second, we apply MDOD for multi-person pose estimation. Through these examples, we show that MDOD is applicable to other research topics as well as multi-object detection.
Language
eng
URI
https://hdl.handle.net/10371/178137

https://dcollection.snu.ac.kr/common/orgView/000000167137
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share