Use of Integral Probability Metrics in Machine Learning
기계학습에서의 적분 확률 측도 사용

Cited 0 time in Web of Science Cited 0 time in Scopus
Myunghee Cho Paik
Issue Date
서울대학교 대학원
학위논문(박사)--서울대학교 대학원 :자연과학대학 통계학과,2020. 2. Myunghee Cho Paik.
This doctoral thesis deals with two machine learning problems using integral probability metrics (IPMs). The first research problem is about learning binary classifiers using only positive and unlabeled observations, called PU learning. Recent studies in PU learning have shown promising empirical performance. However, most existing algorithms may not be suitable for large-scale datasets because they require repeated computations of a large Gram matrix. In this work, we define weighted IPMs and we propose a family of classifiers based on the metrics. We show a special case of the proposed family provides a computationally efficient PU learning algorithm. The proposed algorithm produces a closed-form classifier when the hypothesis space is a closed ball in reproducing kernel Hilbert space. Furthermore, we present a new excess risk bound for the proposed family of classifiers. To the best of our knowledge, this is the first result to explicitly derive the excess risk bound in PU learning.

The second part is to build grounds for regularized risk minimization with augmented data in the context of Wasserstein distributionally robust optimization (WDRO). Data augmentation has recently emerged as a key technology in the field of machine learning to improve empirical performance. However, most augmentation techniques are based on heuristics, and their theoretical bases are limited to account for current successes. In this thesis, we formalize learning models with augmented data in the context of WDRO. When a loss function has Holder continuous gradient, we show that regularized empirical risk evaluated at augmented data approximates the worst-case risk. We propose to minimize the regularized empirical risk, and we show the minimizer attains risk consistency. Based on the theoretical results, we propose a gradient-based algorithm producing a robust prediction model. Multiple real data experiments demonstrate robustness of the proposed model on noisy datasets. This is the first rigorous method to use augmented data and deep neural networks in WDRO.
본 학위 논문은 두 가지 종류의 기계학습 문제를 다룬다. 첫 번째 연구문제는 양성 자료집합과 미분류 자료집합만을 이용하여 이진 분류기를 학습하는 문제이다 (양성-미분류 문제). 해당 분야 종래 연구는 실제 자료에서 실험적으로 우수한 성능을 보였으나 전체 자료 수의 제곱에 달하는 연산량이 필요하다. 이 연구는 재생 커널 힐버트 공간의 닫힌 구를 가설공간으로 설정하여 저연산량 알고리즘을 제안한다. 이에 더하여 제안하는 분류기의 초과 위험 상계를 유도함으로써 제안하는 알고리즘의 이론적 타당성을 보인다. 이 연구는 양성-미분류 분야에서 처음으로 위험 일치성을 유도한 연구이다.

두 번째 연구는 증대자료를 사용한 경험위험 최소화를 분포적 강건 최적화(distributionally robust optimization) 관점에서 해석한 이론 연구이다. 자료 증대법은 최근 기계학습 분야에서 성능 향상을 위한 핵심적인 기술로 부상 했으나 이에 대한 이론적 근거는 거의 전무한 상태이다. 본 연구는 자료 증대법을 미세변동으로 고려하여, 증대자료를 사용한 모형 학습을 분포적 강건 최적화 관점으로 해석한다. 구체적으로 손실 함수의 도함수가 홀더 연속 함수인 경우 증대자료를 사용한 벌점경험위험(regularized empirical risk)이 최악 위험으로 근사 됨을 보인다. 이에 더하여, 제안하는 목적함수의 최적해가 위험 일치성을 가짐을 이론적으로 증명하였다. 실제 잡음 자료를 이용한 실험에서는, 제안된 알고리즘이 종래 방법론에 비해 우수한 정분류율을 가짐을 보였다. 본 연구는 분포적 강건 최적화 문헌에서 증대 자료와 심층신경망 모형의 사용의 정당성을 엄밀하게 보인 첫 연구이다.

본 학위 논문의 두 연구 모두 적분 확률 측도를 활용한 연구이다. 본 학위 논문은 기계학습 분야의 많은 문제가 분포 간 측도를 이용하여 공식화 될 수 있으며 기계학습 문제를 새로운 관점에서 해석 및 해결될 수 있음을 보인다.
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Ph.D. / Sc.D._통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.