Publications

Detailed Information

연속형 변수의 구간 별 임베딩과 클러스터링을 통한 다변수적 이산화 방법 : Multivariate Discretization through Interval-wise Embedding and Clustering of Continuous Variables

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김태욱

Advisor
조성준
Major
공과대학 산업공학과
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
다변수적 이산화임베딩혼합형 데이터
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 2. 조성준.
Abstract
이산화는 연속형 변수를 이산 변수로 변환하는 전처리 과정이다. 이산화를 수행하는 목적은 해석력 있는 기계학습 모델들이 입력 변수의 형태를 이산 변수로 요구하는 경우가 많기 때문이다. 기계학습 모델이 의사결정에 활용되는 의료, 보험과 같은 도메인에서는, 모델의 예측에 대한 해석이 필수적이다. 해당 도메인들에서는 연관규칙기반 분류기, 의사결정나무 등과 같은 해석력 있는 모델들이 많이 사용되는데, 이와 같은 모델들의 특징은 연속형 입력변수에 대한 이산화를 요구한다는 것이다. 이산화 결과는 모델의 예측성능이나 해석력에 많은 영향을 미친다. 따라서 해석력 있는 기계학습을 위한 첫 단계는 정교한 이산화 방법의 적용이라고 할 수 있다. 본 연구에서는 임베딩 기법을 활용한 비지도학습 기반의 다변수적 이산화 방법을 제안한다. 비지도학습 기반의 다변수적 이산화 방법은 클래스 변수를 필요로 하지 않으며, 변수 간의 상호작용 패턴을 보존한다. 지도학습을 위한 전처리로서 사용될 수 있음은 물론, 연관패턴분석이나 이상탐지와 같은 비지도학습을 위한 전처리로도 활용될 수 있다는 범용성 면에서 비지도학습 기반의 다변수적 이산화 방법은 다른 이산화 방법에 비해 장점이 있다. 그러나 기존방법들은 연속형 변수와 범주형 변수 간의 상호작용을 보존하지 못하는 한계가 있다. 제조, 의료, 보험 등 대부분의 도메인에서 다루어지는 데이터가 혼합형임을 고려할 때, 이산화 방법이 혼합형 데이터를 제대로 다루지 못하는 것은 문제가 될 수 있다. 제안방법은 이러한 문제를 임베딩 기법을 통해 해결한다. 먼저 각 연속형 변수를 단위구간으로 이산화 한다. 그 후, 변수 간의 상호작용 정보를 활용하여 단위구간의 임베딩을 학습한다. 마지막으로, 학습된 임베딩들에 대해 클러스터링을 수행하여 유사한 단위구간들을 병합한다. 실험을 통해 제안방법이 변수 간의 상호작용을 보존할 수 있으며, 특히 기존방법과 달리 연속형 변수와 범주형 변수 간의 상호작용도 보존할 수 있음을 확인하였다. 많은 도메인에서 다루어지는 데이터가 혼합형임을 고려할 때, 제안방법이 기계학습 모델의 해석력이 요구되는 다양한 도메인에서 범용 적으로 활용될 수 있을 것이라 기대한다.
Language
Korean
URI
https://hdl.handle.net/10371/141454
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share