Publications

Detailed Information

Use of Integral Probability Metrics in Machine Learning : 기계학습에서의 적분 확률 측도 사용

DC Field Value Language
dc.contributor.advisorMyunghee Cho Paik-
dc.contributor.author권용찬-
dc.date.accessioned2020-05-19T07:59:30Z-
dc.date.available2020-10-06T00:37:01Z-
dc.date.issued2020-
dc.identifier.other000000158695-
dc.identifier.urihttps://hdl.handle.net/10371/167897-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000158695ko_KR
dc.description학위논문(박사)--서울대학교 대학원 :자연과학대학 통계학과,2020. 2. Myunghee Cho Paik.-
dc.description.abstractThis doctoral thesis deals with two machine learning problems using integral probability metrics (IPMs). The first research problem is about learning binary classifiers using only positive and unlabeled observations, called PU learning. Recent studies in PU learning have shown promising empirical performance. However, most existing algorithms may not be suitable for large-scale datasets because they require repeated computations of a large Gram matrix. In this work, we define weighted IPMs and we propose a family of classifiers based on the metrics. We show a special case of the proposed family provides a computationally efficient PU learning algorithm. The proposed algorithm produces a closed-form classifier when the hypothesis space is a closed ball in reproducing kernel Hilbert space. Furthermore, we present a new excess risk bound for the proposed family of classifiers. To the best of our knowledge, this is the first result to explicitly derive the excess risk bound in PU learning.

The second part is to build grounds for regularized risk minimization with augmented data in the context of Wasserstein distributionally robust optimization (WDRO). Data augmentation has recently emerged as a key technology in the field of machine learning to improve empirical performance. However, most augmentation techniques are based on heuristics, and their theoretical bases are limited to account for current successes. In this thesis, we formalize learning models with augmented data in the context of WDRO. When a loss function has Holder continuous gradient, we show that regularized empirical risk evaluated at augmented data approximates the worst-case risk. We propose to minimize the regularized empirical risk, and we show the minimizer attains risk consistency. Based on the theoretical results, we propose a gradient-based algorithm producing a robust prediction model. Multiple real data experiments demonstrate robustness of the proposed model on noisy datasets. This is the first rigorous method to use augmented data and deep neural networks in WDRO.
-
dc.description.abstract본 학위 논문은 두 가지 종류의 기계학습 문제를 다룬다. 첫 번째 연구문제는 양성 자료집합과 미분류 자료집합만을 이용하여 이진 분류기를 학습하는 문제이다 (양성-미분류 문제). 해당 분야 종래 연구는 실제 자료에서 실험적으로 우수한 성능을 보였으나 전체 자료 수의 제곱에 달하는 연산량이 필요하다. 이 연구는 재생 커널 힐버트 공간의 닫힌 구를 가설공간으로 설정하여 저연산량 알고리즘을 제안한다. 이에 더하여 제안하는 분류기의 초과 위험 상계를 유도함으로써 제안하는 알고리즘의 이론적 타당성을 보인다. 이 연구는 양성-미분류 분야에서 처음으로 위험 일치성을 유도한 연구이다.

두 번째 연구는 증대자료를 사용한 경험위험 최소화를 분포적 강건 최적화(distributionally robust optimization) 관점에서 해석한 이론 연구이다. 자료 증대법은 최근 기계학습 분야에서 성능 향상을 위한 핵심적인 기술로 부상 했으나 이에 대한 이론적 근거는 거의 전무한 상태이다. 본 연구는 자료 증대법을 미세변동으로 고려하여, 증대자료를 사용한 모형 학습을 분포적 강건 최적화 관점으로 해석한다. 구체적으로 손실 함수의 도함수가 홀더 연속 함수인 경우 증대자료를 사용한 벌점경험위험(regularized empirical risk)이 최악 위험으로 근사 됨을 보인다. 이에 더하여, 제안하는 목적함수의 최적해가 위험 일치성을 가짐을 이론적으로 증명하였다. 실제 잡음 자료를 이용한 실험에서는, 제안된 알고리즘이 종래 방법론에 비해 우수한 정분류율을 가짐을 보였다. 본 연구는 분포적 강건 최적화 문헌에서 증대 자료와 심층신경망 모형의 사용의 정당성을 엄밀하게 보인 첫 연구이다.

본 학위 논문의 두 연구 모두 적분 확률 측도를 활용한 연구이다. 본 학위 논문은 기계학습 분야의 많은 문제가 분포 간 측도를 이용하여 공식화 될 수 있으며 기계학습 문제를 새로운 관점에서 해석 및 해결될 수 있음을 보인다.
-
dc.description.tableofcontents1 Introduction 1
1.1 Learning binary classifiers using only positive and unlabeled observations 1
1.2 Learning models with augmented data: Wasserstein distributionally robust optimization perspective 5

2 Principled analytic classifier for positive-unlabeled learning via weighted integral probability metric 7
2.1 Preliminaries 7
2.1.1 Problem settings of PU learning 7
2.1.2 L-risk minimization in PU learning 9
2.2 Weighted integral probability metric and L-risk 10
2.2.1 Relation between IPM and L-risk in supervised binary classification 11
2.2.2 Extension to WIPM and L-risk in PU learning 12
2.2.3 Theoretical properties of empirical WIPM optimizer 14
2.3 WIPM optimizer with reproducing kernel Hilbert space 17
2.3.1 An analytic classifier via WMMD optimizer 17
2.3.2 Explicit excess risk bound of WMMD classifier 19
2.4 Related work 21
2.5 Numerical experiments 22
2.6 Concluding remarks 34
2.7 Appendix 34
2.7.1 Proof of Theorem 2.2.1 34
2.7.2 Proofs for Section 2.2.3: Theoretical properties of empirical WIPM optimizer 35
2.7.3 Proofs for Section 2.3: The empirical WMMD optimizer and the WMMD classifier 42
2.7.4 Implementation details 50
2.7.5 Comparison between Gaussian and inverse kernels 54

3 Principled learning with augmented data: Wasserstein distributionally robust optimization perspective 57
3.1 Backgrounds 57
3.1.1 Statistical learning theory and distributionally robust optimization 58
3.1.2 Data augmentation by linear interpolation 59
3.2 Wasserstein distributionally robust optimization 61
3.3 Principled learning with augmented data in the context of WDRO 62
3.4 Numerical experiments 64
3.5 Concluding remarks 69
3.6 Appendix 70
3.6.1 Proof of Theorem 3.3.1 70
3.6.2 Proof of Theorem 3.3.2 75
3.6.3 Implementation details 79

Bibliography 81
Abstract in Korean 91
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc519.5-
dc.titleUse of Integral Probability Metrics in Machine Learning-
dc.title.alternative기계학습에서의 적분 확률 측도 사용-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYongchan Kwon-
dc.contributor.department자연과학대학 통계학과-
dc.description.degreeDoctor-
dc.date.awarded2020-02-
dc.contributor.major통계적 학습 이론-
dc.identifier.uciI804:11032-000000158695-
dc.identifier.holdings000000000042▲000000000044▲000000158695▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share