Publications

Detailed Information

Two Issues in Classification : 분류문제에서의 두 가지 이슈: 공정성 및 극단적 불균형 분류문제
Fairness and Extremely Imbalanced Classifications

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김사라

Advisor
김용대
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
ClassificationFairness in artificial intelligenceWithin group fairnessImbalanced classificationData augmentationSupervised anomaly detection분류모형분류문제공정한 인공지능그룹 내 공정성불균형 분류문제데이터 증원법지도 이상 탐지
Description
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 통계학과, 2021.8. 김용대.
Abstract
In this thesis, we deal with two issues that arise when solving classification problems. The first of which is fairness in artificial intelligence (AI). As they have a vital effect on social decision-making, AI algorithms not only should be accurate and but also should not pose unfairness against certain sensitive groups (e.g., non-white, women). Various specially designed AI algorithms to ensure trained AI models to be fair between sensitive groups have been developed. On the other hand, individual fairness emerged because an AI model that is between-group fair can treat individuals unfairly. However, to find individual-fair algorithms in practice, one must first specify metrics between individuals. Unfortunately, this can be vague and hard to understand in most tasks. In this thesis, we introduce a better guide to between-group fairness, so-called {\it within-group fairness}, which requires that AI models be fair for those in a same sensitive group and those in different sensitive groups. Within-group fairness leads to training an AI model that satisfies between-group fairness and individual fairness in the same sensitive group. We materialize the concept of within-group fairness by proposing corresponding mathematical definitions and developing learning algorithms to control within-group fairness and between-group fairness simultaneously. Numerical studies show that the proposed learning algorithms improve within-group fairness without sacrificing accuracy as well as between-group fairness.

The second is the classification problem when the imbalance between classes is severe. Imbalanced machine learning problem widely studies in various areas, including fraud detection, medical diagnosis, etc. If there is an imbalance between the classes in the data set, the machine learning algorithm learns with more weights for classes with many examples and fewer weights for classes with few examples. Intuitive and easy-to-use sampling methods such as random oversampling (ROS) have been studied to resolve the imbalance problem. However, simple ROS does not help learn a classifier with better performance, especially in extremely imbalanced problems. In this thesis, we propose a new data augmentation procedure {\it MixupROS} motivated by Mixup and classification algorithms based on a supervised anomaly detection method. MixupROS uses information from a major class to generate virtual examples belonging to a minor class. Meanwhile, data-level methodologies have limitations in improving classifier performance when it is extremely imbalanced. Hence, we develop algorithms that are extensions of the DeepSAD algorithm for extremely imbalanced problems. Numerical studies on various imbalanced benchmark datasets and CIFAR-10 show that our proposed methods outperform existing methods.
본 논문에서는 분류문제를 다룰 때 발생할 수 있는 두 가지 이슈에 대해 논의한다. 먼저 첫 번째 이슈는 인공지능의 공정성으로, 인공지능이 여러 분야에서 뛰어난 성능을 나타내어 사회적 의사결정 도구에 활용되면서, 인공지능은 정확하면서 특정 민감 그룹(예. 유색인종, 여성)에 대해 불공정을 내포해서는 안된다. 이를 해결하기 위해, 민감그룹 간 공정한 인공지능을 학습하는 다양한 알고리즘이 제안되었다. 한편, 그룹 간에 공정한 모형이 개개인을 불공정하게 대할 수 있는 문제점이 있어 개인간 공정성 개념이 제안되었지만, 이 개념은 개개인 간 유사도를 측정해야 하는 어려움 때문에 실생활에 적용하기 어렵다. 따라서 본 논문에서는 그룹 간 공정성을 학습할 때 그룹 내에서 불공정이 일어나지 않도록 하는 더 나은 방향의 가이드인 그룹 내 공정성을 소개한다. 그리고 그룹 내 공정성의 수학적 정의를 제안하여 그룹 내 공정성을 개념화하고, 이를 통제할 수 있는 알고리즘을 개발한다. 다양한 실험을 통해 제안한 알고리즘이 정확도와 그룹 간 공정성을 비슷하게 유지하면서 그룹 내 공정성을 완화시킴을 확인하였다.

둘째로, 클래스 간 자료의 수가 극단적으로 불균형할 때의 분류문제를 고려한다. 불균형 분류문제는 이상 거래 탐지, 의학 진단 등 다양한 분야에서 연구됐으며, 일반적으로 불균형 데이터셋으로 분류기를 학습할 경우 자료의 수가 더 많은 메이저 클래스에 초점을 맞춰 자료의 수가 적은 마이너 클래스의 특성을 잘 학습하지 못하게 된다. 이러한 불균형성을 해결하기 위해 가장 직관적이고 사용하기 쉬운 오버샘플링이 적용되었지만, 단순하게 마이너 클래스의 샘플을 복제하는 방법은 더 나은 분류기를 학습할 때 큰 도움이 되지 않는다. 이 논문에서는 새로운 데이터 증원법인 {\it MixupROS}와 딥러닝을 활용한 이상 탐지 방법의 확장 알고리즘을 제안한다. 극단적 불균형을 가정한 여러 데이터셋의 실험 결과를 통해, 제안하는 알고리즘이 기존의 방법들보다 우수한 성능을 가지는 분류기를 학습함을 확인하였다.
Language
kor
URI
https://hdl.handle.net/10371/178729

https://dcollection.snu.ac.kr/common/orgView/000000167015
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share