소수 범주 데이터 영역의 확장 : 데이터 불균형 해결을 위한 oversampling 기법과 고차원 데이터에 대한 적용

심재웅

서울대학교 중앙도서관

S-Space 소개

My S-Space

로그인이 필요합니다.

S-Space

Publications

Detailed Information

소수 범주 데이터 영역의 확장 : 데이터 불균형 해결을 위한 oversampling 기법과 고차원 데이터에 대한 적용

Cited 0 time in Web of Science Cited 0 time in Scopus

Export

Authors: 심재웅

Advisor: 조성준

Major: 공과대학 산업공학과

Issue Date: 2016-02

Publisher: 서울대학교 대학원

Keywords: 데이터 불균형 ; oversampling ; 정규 분포 ; random subspace method ; tree ensemble

Description: 학위논문 (석사)-- 서울대학교 대학원 : 산업공학과, 2016. 2. 조성준.

Abstract: Classification 문제에서 한 class가 다른 class에 비해 데이터의 개수가 현저히 적은 경우를 데이터 불균형 문제라고 한다. 데이터 불균형 문제를 해결하는 여러 방법들 중 이 논문에서는 oversampling에 초점을 맞추었다. Oversampling은 개수가 적은 class의 데이터 양을 임의로 늘려서 class간 비율을 맞추는 방법이다. 이 논문에서는 EMA(Expanding Minority Area)라는 새로운 oversampling 방법을 제안한다. 기존의 여러 oversampling 방법들은 minority가 존재하는 영역의 내부의 밀도를 올리는 방법인 반면, 제안하는 EMA(Expanding Minority Area)는 minority 영역을 확장시키는 방법이다. 이를 통해 분류기가 majority 영역과 아주 가깝게 boundary를 잡을 수 있게 도와준다. 만약 majority 영역에 비해 헐거운 boundary를 잡는다면 minority 데이터를 majority 데이터로 잘못 분류할 가능성이 높아진다. 많은 실제 문제에서는 majority보다 minority data를 놓치지 않고 잡아내는 것이 중요한 문제이기 때문에, 이 경우 EMA는 효과적으로 적용될 수 있다. 20개 데이터셋에 대해 실험을 한 결과 EMA가 다른 oversampling 방법들에 비해 우수함을 확인할 수 있었다. EMA는 minority data가 빈 공간을 채우면서 확장하는 방법이기 때문에 차원의 저주에 걸리기 쉽다. 높은 차원에서는 데이터가 빈 공간을 채우는 효과가 미미해지면서 EMA가 효과를 보지 못한다. 차원의 저주 때문에 고차원에서 효과적이지 않다는 EMA의 단점을 극복하기 위해 EMAForest도 제안한다. EMA를 Random subspace method와 결합하여 decision tree를 적용한 방법이다. Random subspace method를 통해서 높은 차원의 문제를 낮은 차원의 subspace로 분할한 뒤에 EMA를 적용하기 때문에 차원의 저주를 피할 수 있다. 마찬가지로 실험을 통해 EMAForest 고차원 데이터에 대한 우수성을 입증하였고 차원에 대해 robust한 성능을 보임을 확인하였다.

Language: Korean

URI: https://hdl.handle.net/10371/123591

Files in This Item:

000000132046.pdf 1.19 MB

Appears in Collections:

College of Engineering/Engineering Practice School (공과대학/대학원)
- Dept. of Industrial Engineering (산업공학과)
  - Theses (Master's Degree_산업공학과)

Altmetrics

Item View & Download Count

Show Full Item Record

Find it @ SNU

트윗하기

SNS Share