Publications

Detailed Information

Rethinking a Decision Boundary and Penalizing Majority Groups in Imbalanced Learning : 예측 경계에 대한 고찰과 불균형 학습에서의 과반수 그룹 불이익을 통한 성능 향상

DC Field Value Language
dc.contributor.advisor이정우-
dc.contributor.author윤영석-
dc.date.accessioned2023-06-29T01:57:35Z-
dc.date.available2023-06-29T01:57:35Z-
dc.date.issued2023-
dc.identifier.other000000175330-
dc.identifier.urihttps://hdl.handle.net/10371/193282-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000175330ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 이정우.-
dc.description.abstractEstablishing a class-balanced dataset on a large scale for stable learning is impractical for real-world problems, as collecting samples is extremely hard for certain categories or groups. This imbalance results mainly from the natural characteristics of these minorities and the hierarchical structure of underlying attributes. It causes a disparity or unfairness in performance among groups. Several existing approaches encourage a model to pay equal attention to all groups by resampling or reweighting minority groups. Also, data augmentation or generative methods have been used to resolve this problem and improve generalization performance. However, all these methods fail to eliminate the negative impacts of overfitting caused by the lack of diversity in minorities. In this paper, we first demonstrate the classifier's tendency to be over-confident in its predictions. Then we propose a novel post-processing method called Prediction Penalty that places a penalty on majorities to enhance the performance of minority groups in terms of accuracy. It is compatible with other methods, and we introduce an adaptive algorithm to find the best-performing penalty function. Our approach suggests a novel perspective on making a decision boundary robust to data imbalance and bias. Experimental results on various datasets and imbalance settings show significant performance enhancement in both average and robustness and demonstrate the benefit of the new robust decision boundary for imbalanced learning.-
dc.description.abstract특정 범주에서는 충분한 표본을 얻는 것이 굉장히 힘들기 때문에 실제 문제에서 범주 별로 균형 잡힌 큰 규모의 데이터셋을 구축하는 것은 현실적으로 어려움이 있다. 이러한 불균형은 주로 소수 범주의 자연적인 특징이나 잠재적인 특성의 계층적인 구조에 의한다. 이는 집단 간의 성능 차이나 불공정성을 야기한다. 소수 집단을 강조하는 방식으로 그룹들을 공정하게 대하려는 다양한 방법들이 존재한다. 또한 데이터 증대나 생성 모델들 또한 이러한 문제를 해결하여 일반화 성능을 증대하기 위해 사용되었다. 하지만 이러한 접근법들은 소수 집단의 다양성 부족에 의한 과접합 문제에 의한 부정적인 영향을 완전히 제거하는 데에는 실패했다. 본 논문에서는 분류기들이 각자의 예측을 과신하는 경향을 실증한다. 또한 과반수 범주에 대한 예측에 불이익을 가해 소수 범주의 성능을 증대시키는 새로운 후처리 방법을 제안한다. 이 방법은 기존의 방법들과 양립하며, 최적의 불이익 함수를 얻기 위한 적응 알고리즘 또한 제안한다. 본 방법은 데이터의 불균형이나 편향에 강건한 예측 경계를 구축하는 새로운 관점을 제시한다. 다양한 데이터셋과 불균형 환경에 대한 다양한 실험 결과들을 통해 평균 성능과 최소 성능 두 측면에서의 상당한 향상을 보이고 새로운 예측 경계의 장점을 제안한다.-
dc.description.tableofcontents1 Introduction 1
1.1 Related Work 2
1.1.1 Imbalanced Learning and Robust Training 2
1.1.2 Fairness in Machine Learning 3
1.2 Contributions 4
2 Background 6
2.1 Notations and Setting 6
2.2 Distributionally Robust Optimization 7
2.2.1 ERM and limitations 7
2.2.2 Group DROs 8
2.3 Subgroup Resampling 9
2.4 Over-Confidence of Neural Networks 9
3 Prediction Penalty 11
3.1 Process of Prediction Penalty 11
3.2 Statistic Vector and Prediction Function 12
3.3 Adaptive Prediction Penalty 13
4 Experiment 15
4.0.1 Baselines 15
4.0.1 Metrics 16
4.1 Category-based Classification 17
4.1.1 Datasets 17
4.1.2 Architecture 18
4.1.3 Results 19
4.2 Attribute-based Classification 20
4.2.1 Datasets 21
4.2.2 Architecture 22
4.2.3 Results 22
4.3 More Imbalance Settings for Category-based Classification 22
4.4 On Distribution Match between Valid and Test 23
5 Conclusion 25
6 Supplementary 26
6.1 An example pool of penalty functions 26
6.2 Additional Experiments 27
6.2.1 Ablation results on group adjustment parameter of GDRO 27
6.2.2 Additional MNIST experiments 28
6.2.3 FashionMNIST experiments 29
6.2.4 Additional CIFAR10 experiments 30
6.2.5 Attribute-based classification on ResNet 18 architecture 31
6.2.6 Comparison of train and valid performance on selected penalty function 32
Bibliography 36
Abstract in Korean 40
-
dc.format.extentviii, 40-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectimbalanced learning-
dc.subjectpost-processing-
dc.subjectimage classification-
dc.subject.ddc621.3-
dc.titleRethinking a Decision Boundary and Penalizing Majority Groups in Imbalanced Learning-
dc.title.alternative예측 경계에 대한 고찰과 불균형 학습에서의 과반수 그룹 불이익을 통한 성능 향상-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYoungseok Yoon-
dc.contributor.department공과대학 전기·정보공학부-
dc.description.degree석사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000175330-
dc.identifier.holdings000000000049▲000000000056▲000000175330▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share