Publications

Detailed Information

Mixture Model-based Density Estimation for Multi-Object Detection : 다중 객체 검출을 위한 혼합 모델 기반 밀도 추정

DC Field Value Language
dc.contributor.advisor곽노준-
dc.contributor.author유재영-
dc.date.accessioned2022-04-20T02:44:48Z-
dc.date.available2022-04-20T02:44:48Z-
dc.date.issued2021-
dc.identifier.other000000167137-
dc.identifier.urihttps://hdl.handle.net/10371/178137-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000167137ko_KR
dc.description학위논문(박사) -- 서울대학교대학원 : 융합과학기술대학원 융합과학부(지능형융합시스템전공), 2021.8. 곽노준.-
dc.description.abstract다중 객체 검출은 입력 이미지 위에 존재하는 여러개의 객체를 찾는 문제를 의미한다. 이 다중 객체 검출에서 객체는 경계 박스와 객체의 클래스 정보로 표현된다. 이 때 경계 박스는 4개의 좌표 (왼쪽, 위, 오른쪽, 아래)로 구성된다. 심층 인공 신경망이 컴퓨터 비전 분야에 적용된 이 후로 다중 객체 검출 알고리즘은 상당한 발전을 이루었다.

이미지 분류 같은 컴퓨터 비전의 다른 문제들과 다르게 하나의 입력 이미지에 대한 다중 객체 검출 문제의 타겟의 수는 가변적이다. 이는 다중 객체 검출기의 학습을 어렵게 한다. 따라서, 다중 객체 검출 네트워크의 학습의 근본적인 문제는 ``어떠한 방법으로 서로 다른 이미지에 대해 가변적인 수의 경계 박스를 네트워크를 통해 학습 할 것인가''이다.

다양한 수의 타겟을 학습하기 위해서 이전의 다중 객체 감지기는 일반적으로 경계 상자 공간을 이산화하고 정답 경계 상자를 네트워크의 출력에 직접 할당하는 훈련 절차를 사용한다. 이 훈련 방법은 다양한 수의 경계 상자를 직접 모델링하지 않기 때문에 학습을 위해 일부 수작업이 요구되는 구성 요소와 절차를 필요로 한다. 하지만 이는 다중 물체 감지 훈련을 복잡하고 경험적으로 만든다.

이 논문에서 우리는 다양한 수의 타겟을 직접 모델링하고 다중 객체 탐지기 훈련의 복잡한 처리 및 휴리스틱을 줄이는 것을 목표로한다. 이를 위해 경계 상자의 밀도 추정 문제로 다중 객체 감지 작업을 재정의한다. 타겟를 네트워크 출력의 특정 위치에 직접 할당하는 대신 혼합 모델을 사용하여 입력 이미지에서 경계 상자의 확률 밀도를 추정하도록 네트워크를 훈련시킨다. 이를 위해 MDOD (mixture density object detector)라는 다중 물체 감지를 위한 새로운 네트워크와 밀도 추정 기반 학습을 위한 해당 목적 함수를 제안한다. 우리는 공개된 다중 객체 감지 데이터 세트에 MDOD를 적용하였다. 우리가 제안한 방법은 새로운 접근 방식으로 다중 물체 감지 문제를 처리 할뿐만 아니라 감지 성능 또한 향상시켰다.

또한, 이 논문에서 우리는 MDOD의 활용 사례들을 소개한다. 첫 번째로, 다중 물체 감지에서 기존의 non-maximum suppression 기반의 후 처리를 대체하기 위해 MDOD를 사용한다. 두 번째로, 다중 사람 포즈 추정 문제에 MDOD를 적용한다. 우리는 이러한 사례들을 통해 MDOD가 다중 물체 감지뿐만 아니라 다른 연구 주제에도 응용 가능함을 보였다.
-
dc.description.abstractMulti-object detection is a task finding multiple-objects on an input image. In multi-object detection, an object is represented as a bounding box with its class information. The bounding boxes consist of 4-coordinates (left, top, right, and bottom). Since convolutional neural networks have been developed, multi-object detection algorithms have achieved a substantial improvement.

Unlike the other computer vision tasks such as image classification, each input image has an inconsistent number of target bounding boxes and class labels in multi-object detection. This makes the training of multiple object detectors difficult. Thus, the fundamental problem in training a multi-object detection network is, How can the network learn varying number of bounding boxes in different input images?.

To learn varying number of bounding boxes, the previous multi-object detectors generally use the training procedure that discretizes the bounding box space and directly assigns the ground truth bounding boxes to the networks output. Since this training method does not directly model a variable number of bounding boxes, it requires some hand-crafted components and procedures additionally to the training, which makes the training too complicated and heuristic.

In this dissertation, we aim to directly model the varying number of bounding boxes and simplify the complex processing and heuristics of training multi-object detector. To this end, we reformulate the multi-object detection task as a problem of density estimation of bounding boxes. Instead of assigning each ground truth to specific locations of the network's output, we train a network by estimating the probability density of bounding boxes in an input image using a mixture model. For this purpose, we propose a novel network for multi-object detection called mixture density object detector (MDOD), and the corresponding objective function for the density-estimation-based training. We apply MDOD to the public multi-object detection dataset. Our proposed method not only deals with multi-object detection problems in a new approach, but also improves detection performances.

In addition, we introduce some applications of MDOD in other research topics. First, we use MDOD to replace non-maximum suppression-based post-processing in multi-object detection. Second, we apply MDOD for multi-person pose estimation. Through these examples, we show that MDOD is applicable to other research topics as well as multi-object detection.
-
dc.description.tableofcontents1 Introduction 1
1.1 Problem definition: training of a multi-object detection network 3
1.2 Approach: density estimation-based training 7
1.3 Contributions 10
1.4 Outline 12
2 Related Works 14
2.1 Multi-object detection using convolutional neural network 14
2.2 Anchor-based and anchor-free methods 17
2.3 Matching algorithm 18
2.4 Foreground-background imbalance problem 19
2.5 Using probability distribution 19
2.6 Dataset and evaluation metric 20
2.6.1 Pascal VOC 20
2.6.2 MS COCO 23
2.7 Mixture density network 24
3 Mixture Model-based Bounding Box Density Estimation for Object Detection 27
3.1 Mixture model for multi-object detection 28
3.2 Mixture model-based object detector 31
3.2.1 Architecture 31
3.2.2 Inference 34
3.3 Training 35
3.3.1 Confidence score through RoI sampling 35
3.3.2 Likelihood compensation 37
3.3.3 Modified loss function 38
3.4 Experiments 39
3.4.1 Experiment settings 39
3.4.2 Confidence measure 40
3.4.3 Foreground-background balance 42
3.4.4 Relation of uncertainty (σ) and confidence p(c) 43
3.4.5 Likelihood compensation 44
3.4.6 Flexibility of the MDOD 45
3.4.7 Default std (σ ) 47
3.4.8 Center-limit operation (F) 47
3.4.9 Ablation study 47
3.4.10 Evaluation result comparison 48
3.5 Additional experiments on Pascal VOC 48
3.5.1 Default coordinates (μ ) 50
3.5.2 Default std (σ ) 51
3.5.3 Ablation study in more detail 51
3.5.4 Visualization of RoIs 52
3.5.5 Visualization of the mixture model 52
3.5.6 Evaluation results comparison 55
3.6 Conclusion 55
4 Improvement of Mixture Density Object Detector with Cauchy distribution 58
4.1 Mixture model with Cauchy distribution 60
4.2 MDOD without predefined default coordinate (μ ) 62
4.3 Experiments 65
4.3.1 Experiment settings 65
4.3.2 Default coordinate and level-scale 65
4.3.3 Gaussian and Cauchy distribution 66
4.3.4 Underflow ratio 68
4.3.5 Default scale parameter of Cauchy (γ ) 68
4.3.6 Evaluation result comparison 69
4.4 Conclusion 75
5 Training MDOD without RoI sampling 76
5.1 Foreground probability and mixing coefficient 77
5.2 Training without RoI sampling 78
5.3 Experiments 79
5.3.1 Experiment settings 79
5.3.2 Comparison with MDOD-V2 81
5.4 Conclusion 81
6 Application of MDOD 83
6.1 MDOD for duplicate bounding box removal 84
6.1.1 MDOD with local maximum module 85
6.1.2 Learning local maximum score 87
6.1.3 Inference 87
6.1.4 Results 88
6.2 MDOD for multi-person pose estimation 90
6.2.1 Mixture density pose estimator 91
6.2.2 Learning keypoints 92
6.2.3 Inference 93
6.3 Results 93
6.4 Conclusion 95
7 Discussion 97
7.1 Summary 97
7.2 Future works and broader impacts 99
7.2.1 Modeling the distribution of bounding boxes 99
7.2.2 Normalized confidence score 99
7.2.3 The number of mixture components 100
7.2.4 Object in higher dimension 100
7.2.5 Likelihood for any bounding box 100
7.2.6 Knowledge transfer with MDOD 101
8 Appendix 102
Abstract (In Korean) 115
감사의 글 117
-
dc.format.extentxi, 117-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectmulti-object detection-
dc.subjectmixture model-
dc.subjectdensity estimation-
dc.subjectprobability distribution-
dc.subjectdeep neural network-
dc.subject다중 객체 검출-
dc.subject확률 분포-
dc.subject혼합 모델-
dc.subject밀도 추정-
dc.subject심층 인공 신경망-
dc.subject.ddc620.82-
dc.titleMixture Model-based Density Estimation for Multi-Object Detection-
dc.title.alternative다중 객체 검출을 위한 혼합 모델 기반 밀도 추정-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorJaeyoung Yoo-
dc.contributor.department융합과학기술대학원 융합과학부(지능형융합시스템전공)-
dc.description.degree박사-
dc.date.awarded2021-08-
dc.identifier.uciI804:11032-000000167137-
dc.identifier.holdings000000000046▲000000000053▲000000167137▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share