Browse

Instance-based Entropy Classifier for Imbalanced Classification Problem
데이터 불균형 해결을 위한 인스턴스 기반 엔트로피 분류기의 개발

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
조풍진
Advisor
장우진
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
Fuzzy support vector machineEntropyNearest neighborImbalanced classificationP2P lending marketInvestment decisionLoan status prediction
Description
학위논문(박사)--서울대학교 대학원 :공과대학 산업공학과,2019. 8. 장우진.
Abstract
클래스 불균형 데이터를 바탕으로 한 지도학습은 많은 분야에서 중요한 문제로 여겨져 왔다. 소수 데이터의 무시로 인해 일반적인 분류 알고리즘과는 다른 방법이 필요하기 때문이다. 이러한 맥락에서, 퍼지 서포트 벡터 머신(Fuzzy Support Vector Machine, FSVM)은 클래스 불균형 데이터를 처리하기 위해 각 데이터 포인트의 가중치를 다르게 할당할 수 있으며, 가중치를 결정하는 연구들이 활발하게 수행되었다. 그러한 방법들 중에서 정보 이론의 엔트로피는 데이터의 설명력을 가지고 있기 때문에 퍼지 서포트 벡터 머신에 적용 할 수 있다. 또한, 클래스 불균형 분류에 대한 정보의 확실성을 정량화하기 위해 최근점 이웃의 클래스에 기반한 최근접 이웃 엔트로피 개념이 제안되었다. 그러나 기존의 엔트로피 퍼지 서포트 벡터 머신(Entropy Fuzzy Support Vector Machine, EFSVM)은 모델을 학습할 때 통일된 이웃 크기를 사용하여 오분류를 유발한다. 그래서 이 논문은 이웃의 클래스를 보다 잘 반영하는 새로운 사례 기반 분류기를 개발하는 것을 목표로 한다. 먼저, 제안된 사례 기반 엔트로피 퍼지 서포트 벡터 머신(Instance-based Entropy Fuzzy Support Vector Machine, IEFSVM)은 최근접 이웃 엔트로피의 그래프 패턴을 기반으로 개발되었다. 고정된 데이터 포인트에 대해 엔트로피 값이 이웃 크기에 따라 달라질 수 있다는 것을 참고한다면, 여러 이웃 크기에 따른 엔트로피 조합을 고려할 수 있다. 그리고 그 엔트로피 조합의 그래픽 패턴을 사용하여 합리적인 추론을 통해 가중치를 할당한다. 두 번째로, 공공 데이터와 실제 데이터를 사용하여 여러 벤치마크를 통해 IEFSVM의 성능을 입증한다. IEFSVM의 기본 분류기는 서포트 벡터 머신(Support Vector Machine, SVM)이기 때문에, 벤치마크를 구성할 때 SVM을 기본 분류기로 사용하는 알고리즘과 그렇지 않은 알고리즘 두 가지를 사용한다. 특히, 제안된 IEFSVM은 EFSVM을 포함한 다른 벤치마크들보다 높은 수신자 조작 특성 곡선의 밑 면적(Area Under the receiver operating characteristic Curve, AUC)값을 가지며 통계적으로 개선된 예측 성능을 보여준다. 마지막으로 Peer-to-peer(P2P) 대출 시장에 IEFSVM 모델을 적용하여 투자 의사 결정 모델을 개발한다. P2P 대출 시장에서 대출 상태는 불균형한 데이터이기 때문에 IEFSVM을 적용하면 완납된 대출을 예측할수 있다. 또한, 수익성을 높이기 위해 다중 회귀 분석 모델을 사용하여 높은 투자 수익을 가지고 파산하지 않을 대출을 찾는다. 흥미롭게도 IEFSVM은 분류 성능 측면에서도 기존의 클래스 불균형 분류기를 개선하고, 수익성 성과와 관련하여서도 투자 의사 결정 모델을 개선하는 데에 성공한다. 결론적으로, 이 논문의 기여도는 새로운 비용 민감 분류기의 개발과 수익성 있는 투자 결정을 위한 분류기의 응용을 포함한다.
Imbalanced classification, a supervised machine learning with class imbalance datasets, has been a significant problem in many areas. Due to the ignorance of minority data, a method different from the standard classification algorithm is needed. In this context, fuzzy support vector machine (FSVM) can assign the weight of each data point differently to handle the imbalanced datasets, and the studies in determining the weight have been actively conducted. In information theory, entropy possesses a descriptive power of data, and it can be employed to FSVM. To quantify the certainty of information for imbalanced classification, nearest neighbors entropy, an entropy value based on the neighbors' class, is proposed. However, the existing entropy fuzzy support vector machine (EFSVM) employs a unified neighborhood size when learning the model, which causes misclassification. That's why this dissertation aims to develop the new instance-based classifier which better reflects neighbors' class. At first, the model of proposed instance-based entropy fuzzy support vector machine (IEFSVM) is developed based on the characteristics of nearest neighbors entropy. Given that the entropy of a fixed data point can vary according to neighborhood size, the entropy combination with several neighborhood sizes can be considered. Then, the graphical pattern of entropy combination is employed for assigning the weight with rational reasoning. Secondly, the model of IEFSVM is validated using public and real-world datasets with several benchmarks. Since the base classifier of IEFSVM is support vector machine (SVM), the benchmarks for comparison are twofold: algorithms using SVM as the base classifier and those not. Specifically, the proposed IEFSVM exhibits the statistically improved prediction performance with higher area under the receiver operating characteristic curve (AUC) than other benchmarks including EFSVM. Lastly, the model of IEFSVM is applied into Peer-to-peer (P2P) lending market to develop an investment decision model. Since the loan status of borrowers in P2P lending market is an imbalanced data, applying IEFSVM can predict fully paid loans. To enhance the profitability, a multiple regression model is also generated to detect non-default loans with high investment return. Interestingly, IEFSVM succeeds to improve the existing imbalanced classifier in terms of classification performance and even to develop an investment decision model with respect to profitability performance. In conclusion, the contribution of this dissertation involves the development of a novel cost-sensitive classifier and the application of classifier to profitable investment decision.
Language
eng
URI
http://hdl.handle.net/10371/161930

http://dcollection.snu.ac.kr/common/orgView/000000156383
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Industrial Engineering (산업공학과)Theses (Ph.D. / Sc.D._산업공학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse