Publications

Detailed Information

Feature Selection with Particle Swarm Optimization Substantially Improves the Accuracy of Missing Data Imputation for a Large-scale Data : BPSO 기반 변수 선택 기법으로 보정한 결측치 대체 알고리즘 개발

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정수린

Advisor
원성호
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Feature selectionBPSOmissForestImputationMissing변수 선택결측
Description
학위논문 (석사) -- 서울대학교 대학원 : 보건대학원 보건학과(보건학전공), 2021. 2. 원성호.
Abstract
Introduction

Missing data are common problem in large scale data setting. Handling missing data appropriately is crucial in data analysis. Missingness can be categorized into the missing completely at random(MCAR), (2) missing at random(MAR), and (3) missing not at random(MNAR)1.7. Different types of missingness mechanism need different imputation strategy2. Multiple Impuation – an approach for averaging the outcomes across multiple imputed data is more suitable than single imputation dealing with various missing mechanism2,7. The missForest is one of the most prevalent multiple imputation method3. It is known that missForest has advantages over other imputation method in that it is applicable for mixed type data with non-linearity and interaction and does not require any distributional assumption of the given variables unlike MICE which assumes linearity between the variables3,4,5. However, in a recent study, it is found out that missForest can produce a biased results for non-normal data6,8. Additionally, missForest is computationally expensive4. Therefore, we developed missForest algorithm by combining BPSO based feature selection strategy.

Methods

Binary Particle Swarm Optimization(BPSO) is an evolutionary algorithm well-known for the global search ability and computational efficiency. Combining BPSO based feature selection step prior to impute missing values with missForest, imputation accuracy for continuous variables can be increased by pruning redundant variables.

Results

The missForest is one of the most prevalent missing data imputation method since it can be applied to mixed-type data and does not need distributional assumption. However, it turned out that missForest can produce a biased results for non-normal data. Thus, we improve the imputation accuracy of missForest by selecting important features using BPSO algorithm. BPSO is an evolutionary algorithm and also well-known for its global optimization and efficient computing. In this study, BPSO shows better imputation accuracy than missForest with respect to the continuous variables by feature selection prior to the imputation step.

Keywords: Feature selection, BPSO, missForest, Imputation, Missing
Student Number: 2019-22081
배경

데이터 내의 결측은 발생 원인에 따라 MCAR, MAR, MNAR로 나뉘며 이에 따라 결측 대체 방법도 달라진다. 많은 결측 대체 방법 중, missForest는 데이터에 대한
분포 가정을 필요로 하지 않으며 mixed-type 데이터에도 사용이 가능하기 때문에 다른 방법에 비해 큰 이점을 갖는다. 하지만 최근의 연구에 따르면 missForest를 이용한 결측 대체 결과에 편향이 발생할 수 있다는 것이 밝혀졌다. 또한 우수한 성능을 가지지만 데이터 차원이 커짐에 따라 계산량이 크게 증가한다는 단점 또한 존재한다. 이에 따라 본 연구에서는 BPSO를 기반으로 한 변수선택법으로 missForest를 보완하고자 한다.

방법

BPSO란 진화 연산(evolutionary algorithm) 중 하나로, 전역적인 최적화(global optimization) 기법과 효율적인 계산으로 잘 알려진 방법이다. 본 연구에서는 missForest로 결측치를 대체하기에 앞서, BPSO를 기반으로 한 변수 선택을 진행하는 방법을 통해 기존 missForest 방법보다 결측치 대체 정확도를 개선시키는 것을 목표로 한다.

결과
missForest는 mixed-type data에 사용가능하며, 특별한 분포가정이 필요하지 않고, 성능 또한 우수하기 때문에 널리 사용되는 결측 대체 방법 중 하나이다.
하지만 관측치 개수나 변수 개수가 증가함에 따라 계산량이 크게 증가하기 때문에 이를 보완하고자, BPSO를 기반으로 한 변수선택법으로 결측 대체에 사용된 변수들을 미리 선택한 후, missForest를 적용하였다. 본 연구에서는 missForest로 결측치를 대체하기에 앞서, BPSO를 기반으로 한 변수 선택을 진행함으로써 연속형 변수에 한하여 기존 missForest 방법보다 개선된 결과를 얻었다.

주요어: 변수 선택, BPSO, missForest, 결측

학번: 2019-22081
Language
eng
URI
https://hdl.handle.net/10371/176587

https://dcollection.snu.ac.kr/common/orgView/000000165708
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share