Publications

Detailed Information

A Measure-Theoretic Framework for Object Detection Using Deep Neural Networks : 심층신경망을 이용한 물체인지에서의 측도론적 방법론

DC Field Value Language
dc.contributor.advisor박종우-
dc.contributor.author김우영-
dc.date.accessioned2019-10-21T01:43:50Z-
dc.date.available2019-10-21T01:43:50Z-
dc.date.issued2019-08-
dc.identifier.other000000157502-
dc.identifier.urihttps://hdl.handle.net/10371/161890-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000157502ko_KR
dc.description학위논문(박사)--서울대학교 대학원 :공과대학 기계항공공학부,2019. 8. 박종우.-
dc.description.abstractThis thesis is concerned with the object detection problem in computer vision, which aims to detect instances of semantic objects in images. The object types covered in this research range from those in two-dimensional images and in three-dimensional coordinates of real-world space, to curve-shaped objects like traffic lane markings. We present novel formulations for object detection problems based on measure theory and information geometry. Since our research starts from the deep learning framework in which a large-sized dataset is used to train a model, convolutional neural networks are utilized as function approximators for the representations.

We present a positive measure that allows the object detection problem to be interpreted from the view of measure theory. Using a measure that indicates the number of objects, the corresponding density function represents a sample of labeled data for the object detection problem. Accordingly, we introduce a framework where the object detection problem is considered not as a problem of finding bounding boxes, but as a density estimation problem. The information geometric structure of the function space provides an invariant Riemannian metric, which helps to formulate a coordinate invariant divergence for two density functions.

The measure-theoretic framework can also be applied to three-dimensional object detection problems. We use RGB-D sensor measurements, which appends the depth map channel to the conventional visual input of RGB channels. The definition of the measure and the density is simply extended to three-dimensional space, while the construction of the density representation requires a sophisticated parameterization method. We present an algorithm to construct density functions parameterized by the Gaussian mixture model. This method exploits the perspective projection transformation so that the three-dimensional density is derived from the image plane.

We also address the detection of curve-shaped objects using spline parameterizations. The main target of this research is to detect traffic lanes from road scene images. We propose a traffic lane detection framework using deep neural networks based on B-spline representations of traffic lanes. Unlike previous approaches that depend on pixel-wise segmentation methods, our approach represents traffic lanes with spline curves, which are inherently more natural for representing traffic lanes. Experimental results compared against other state-of-the-art methods demonstrate the performance advantages of our method with respect to accuracy and efficiency.
-
dc.description.abstract본 논문은 컴퓨터 비전 분야의 물체인지문제를 다루고 있으며, 비전 시스템의 입력으로부터 의미 있는 물체를 감지하는 것을 목표로 한다. 본 연구에서 다루는 물체의 유형은 2 차원 이미지의 물체, 3 차원 공간상의 물체, 그리고 차선과 같은 곡선 형 물체를 포함한다. 이번 연구는 측도론과 정보기하학을 기반으로 하여 물체 인지 문제에 적합한 표현방식을 제시한다. 본 연구는 대량을 데이터를 이용하는 딥러닝 방법론으로부터 기반으로 하였기에, 이에 적합한 합성곱 신경망이 충분히 활용되었다.

이번 연구에서는 물체인지문제를 해석하기에 적합한 positive measure를 측도론을 기반으로 하여 제시한다. 물체 수를 지칭하는 측도를 이용하여, 이에 대응하는 밀도함수를 통해 학습데이터의 샘플을 표현한다. 즉, 본 연구에서는 기존의 bounding box를 찾는 문제로 인식되었던 물체인지문제를 밀도추정문제로 재해석하는 방법론을 제시하고자 한다. 또한 함수공간의 정보기하학적 구조를 통해 제시되는 Riemannian metrix을 이용하여, 두 밀도함수간의 divergence르 좌표에 독립적인 형태로 유도한다.

앞선 측도론 기반의 방법론은 3 차원 물체인지문제에도 적용이 가능하다. 본 연구에서는 깊이 맵 채널을 기존의 RGB 채널에 추가한 RGB-D 센서 측정값을 이용한다. 2 차원에서 정의된 측도와 밀도를 3 차원으로 확장하는 것은 단순한 반면, 3 차원 상의 밀도함수를 매개 변수화 하여 표현하는 일은 세심한 주의를 요구한다. 이번 연구에서는 가우시안 혼합모델을 이용한 매개 변수화를 이용하여 밀도함수를 구성한다. 이 방식은 원근 투영 모델을 이용하여, 3 차원의 밀도함수가 이미지 평면으로부터 유도되는 방식을 사용하였다.

본 논문은 또한 스플라인 매개 변수화를 사용하여 곡선 형태의 객체 감지 문제를 다룬다. 이 연구의 주 목적은 도로 장면 이미지에서 교통 차선을 감지하는 것이다. 이번 연구를 통해 교통 차선을 B-spline으로 표현한 심층 신경망을 사용하는 교통 차선 탐지 방법론을 제시한다. 픽셀 단위의 분할 방법에 의존하는 이전 접근 방식과는 달리, 본 논문의 접근 방식은 교통 차선을 표시하기에 본질적으로 더 자연스러운 스플라인 곡선을 이용한다. 기존의 방법들과 비교 한 실험 결과를 통하여, 본 연구에서 제시하는 방법이 경쟁력 있는 성능을 보일뿐만 아니라 계산상으로도 효율적임을 입증한다.
-
dc.description.tableofcontents1 Introduction 1
1.1 Contributions of This Thesis 4
1.1.1 Measure-Theoretic Representation for Object Detection 4
1.1.2 Object Detection in Three-Dimensional Space 5
1.1.3 Spline Representation for Traffic Lane Detection 6
2 Preliminaries 9
2.1 Introduction 9
2.2 Measure Theory 10
2.3 Invariant Geometry and f-Divergence 14
2.4 Deep Neural Network 16
2.4.1 Feedforward Network 17
2.4.2 Convolutional Layer 19
2.5 B-Spline 21
3 Measure-Theoretic Representation for Object Detection 23
3.1 Introduction 23
3.2 Object Counting Measure Definition 25
3.3 Implementation to Object Detection 29
3.3.1 Representation of Images Including Objects Based on Object Counting Measure 30
3.3.2 Neural Network Prediction 32
3.3.3 Objective Function for Neural Network Training 35
3.4 Image Augmentation with Affine Transformation 37
3.5 Experiments 39
3.5.1 Object Detection in Aerial Images 39
3.5.2 Comparison with Conventional Objective Function 44
4 Object Detection in Three-Dimensional Space 49
4.1 Introduction 49
4.2 Neural Network Parameterization 51
4.3 Image Augmentation for Neural Network Training 56
4.4 Experiments 57
5 Spline Representation for Traffic Lane Detection 63
5.1 Introduction 63
5.2 BSplineNet 64
5.2.1 Spline Curve Representation 64
5.2.2 Objective Function for Training 66
5.2.3 Neural Network Structure 67
5.2.4 Inference 69
5.3 Experiments 70
5.3.1 Training Scheme 70
5.3.2 TuSimple Dataset 70
5.3.3 CULane Dataset 74
5.4 Measure-Based Approach for Lane Detection 79
5.4.1 Object Counting Density Function Representation 79
5.4.2 Objective Function 81
5.4.3 Experimental Results 83
6 Conclusion 87
A Appendix 91
A.1 Proof of Proposition 3.1 91
A.2 Proof of Proposition 3.2 93
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectMeasure theory-
dc.subjectobject detection-
dc.subjectdeep learning-
dc.subjectconvolutional neural network-
dc.subjectinformation geometry-
dc.subjecttraffic lane detection.-
dc.subject.ddc621-
dc.titleA Measure-Theoretic Framework for Object Detection Using Deep Neural Networks-
dc.title.alternative심층신경망을 이용한 물체인지에서의 측도론적 방법론-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.department공과대학 기계항공공학부-
dc.description.degreeDoctor-
dc.date.awarded2019-08-
dc.identifier.uciI804:11032-000000157502-
dc.identifier.holdings000000000040▲000000000041▲000000157502▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share