Publications

Detailed Information

SMS: A Deep Synthetic Minority Sampler for Imbalanced Binary Classification : SMS: 불균형 이진 분류를 위한 인공 데이터 샘플링 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Jae-Won LEE

Advisor
강유
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Generative Adversarial NetworkData ImbalanceOversampling생산적 적대 신경망불균형한 데이터오버샘플링
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2021. 2. 강유.
Abstract
Given an imbalanced dataset, how can we create high fidelity synthetic minority instances for training robust and unbiased classifiers? Data imbalance is common in mission-critical fields where costs associated with procuring minority instances are prohibitively expensive. Training classifiers on imbalanced datasets result in unreliable predictions and low performance. Oversampling techniques are employed to restore balance to the dataset, allowing the classifier to learn a more accurate representation of the true data distribution. Thus, generating a set of synthetic samples that are i) realistic, ii) containing varying degrees of class confidence, and iii) diverse is essential. Existing methods create samples that do not satisfy all the desired properties.

We propose Synthetic Minority Sampler (SMS), an oversampling framework designed for highly imbalanced datasets. SMS employs two generators to create a balanced ratio of normal and borderline samples that teach classifiers a robust and unbiased class representation. SMS accounts for the scarce minority instances via a class-conditional diversity loss to ensure that generated minority samples are diverse. Additionally, SMS stabilizes the training process by introducing a weighted random sampler to balance the class proportion of mini-batches, and data augmentation to prevent the discriminator from overfitting. Experimental results show that models trained on an imbalanced dataset augmented with synthetic data sampled from SMS outperform competitors in the binary classification task, achieving up to 10.06% higher F1-score than the competitors.
클래스가 불균형한 데이터가 주어졌을 때 어떻게 소수 클래스에 대한 데이터를 인공적으로 증대하여 클래스 분류 성능을 높일 수 있을까? 데이터 불균형 문제는 고장 진단 및 질병 분류와 같이 한쪽의 클래스 수가 다른 한쪽의 수보다 극단적으로 적을 때 발생하는 문제를 일컫는다. 이러한 불균형한 데이터를 통해 학습된 모델은 잘못된 예측 결과 좋지 못한 분류 성능을 보인다. 이를 해결하기 위해 일반적으로 소수 클래스에 대해 인공적으로 샘플을 증대하여 각 클래스의 샘플의 수를 동일하게 하는 방식을 사용한다. 인공적으로 증대가 된 샘플은 사실적이고 기존의 샘플과 동일하지 않아야 하며 다양한 성질을 포함하여야 하는데 선행 연구들은 이러한 요소를 충족하지 못하고 있다.


해당 논문에서는 불균형한 데이터셋에서 높은 품질의 인공 데이터를 오버샘플링 (oversampling) 하는 프레임워크인 Synthetic Minority Sampler (SMS)를 제안한다. SMS는 두 개의 생성기를 사용하여 구분이 명확한 샘플과 명확하지 않은 샘플을 적절한 비율로 생성하고 이를 통해 분류기를 더욱 견고하고 일반화된 방향으로 학습시킨다. SMS는 해당 논문에서 고안된 손실 함수 (class-conditional diversity loss)를 사용하여 인공적으로 생성된 소수 클래스 샘플의 다양성을 보장한다. 또한 미니 배치의 클래스 비율을 적절하게 배분하는 임의 샘플러와 구분기 (discriminator)의 오버피팅 방지를 위한 데이터 증강 기법을 사용하여 SMS의 학습을 안정화한다. 실험 결과에서는 SMS를 통해 생성된 인공 데이터를 기존의 데이터셋에 추가하여 학습한 모델이 이진 분류 (binary classification) 문제에서 탁월한 성능을 보였으며, 경쟁 메소드보다 10.06% 높은 F1 스코어를 기록하였다.
Language
eng
URI
https://hdl.handle.net/10371/175433

https://dcollection.snu.ac.kr/common/orgView/000000164237
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share