Publications

Detailed Information

Rethinking a Decision Boundary and Penalizing Majority Groups in Imbalanced Learning : 예측 경계에 대한 고찰과 불균형 학습에서의 과반수 그룹 불이익을 통한 성능 향상

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

윤영석

Advisor
이정우
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
imbalanced learningpost-processingimage classification
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 이정우.
Abstract
Establishing a class-balanced dataset on a large scale for stable learning is impractical for real-world problems, as collecting samples is extremely hard for certain categories or groups. This imbalance results mainly from the natural characteristics of these minorities and the hierarchical structure of underlying attributes. It causes a disparity or unfairness in performance among groups. Several existing approaches encourage a model to pay equal attention to all groups by resampling or reweighting minority groups. Also, data augmentation or generative methods have been used to resolve this problem and improve generalization performance. However, all these methods fail to eliminate the negative impacts of overfitting caused by the lack of diversity in minorities. In this paper, we first demonstrate the classifier's tendency to be over-confident in its predictions. Then we propose a novel post-processing method called Prediction Penalty that places a penalty on majorities to enhance the performance of minority groups in terms of accuracy. It is compatible with other methods, and we introduce an adaptive algorithm to find the best-performing penalty function. Our approach suggests a novel perspective on making a decision boundary robust to data imbalance and bias. Experimental results on various datasets and imbalance settings show significant performance enhancement in both average and robustness and demonstrate the benefit of the new robust decision boundary for imbalanced learning.
특정 범주에서는 충분한 표본을 얻는 것이 굉장히 힘들기 때문에 실제 문제에서 범주 별로 균형 잡힌 큰 규모의 데이터셋을 구축하는 것은 현실적으로 어려움이 있다. 이러한 불균형은 주로 소수 범주의 자연적인 특징이나 잠재적인 특성의 계층적인 구조에 의한다. 이는 집단 간의 성능 차이나 불공정성을 야기한다. 소수 집단을 강조하는 방식으로 그룹들을 공정하게 대하려는 다양한 방법들이 존재한다. 또한 데이터 증대나 생성 모델들 또한 이러한 문제를 해결하여 일반화 성능을 증대하기 위해 사용되었다. 하지만 이러한 접근법들은 소수 집단의 다양성 부족에 의한 과접합 문제에 의한 부정적인 영향을 완전히 제거하는 데에는 실패했다. 본 논문에서는 분류기들이 각자의 예측을 과신하는 경향을 실증한다. 또한 과반수 범주에 대한 예측에 불이익을 가해 소수 범주의 성능을 증대시키는 새로운 후처리 방법을 제안한다. 이 방법은 기존의 방법들과 양립하며, 최적의 불이익 함수를 얻기 위한 적응 알고리즘 또한 제안한다. 본 방법은 데이터의 불균형이나 편향에 강건한 예측 경계를 구축하는 새로운 관점을 제시한다. 다양한 데이터셋과 불균형 환경에 대한 다양한 실험 결과들을 통해 평균 성능과 최소 성능 두 측면에서의 상당한 향상을 보이고 새로운 예측 경계의 장점을 제안한다.
Language
eng
URI
https://hdl.handle.net/10371/193282

https://dcollection.snu.ac.kr/common/orgView/000000175330
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share