Publications

Detailed Information

Machine Learning Models and Missing Data Imputation Methods in Predicting the Progression of IgA Nephropathy : 기계학습 및 결측자료 대체를 이용한 IgA 신염 예후 예측

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

노준혁

Advisor
Robert Ian McKay
Major
공과대학 전기·컴퓨터공학부
Issue Date
2015-02
Publisher
서울대학교 대학원
Keywords
Immunoglobulin A Nephropathy (IgAN)End-Stage Renal Disease (ESRD)Missing Value ImputationMachine LearningSupervised LearningEnsemble Learning
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. Robert Ian McKay.
Abstract
IgA 신염은 IgA 항체가 신장 사구체에 침착되면서 발생하는 염증이다. 이는 가장 흔한 사구체신염으로 우리나라를 비롯한 동아시아에서 특히 높은 유병률을 보인다. IgA 신염 환자는 평균 35세 전후로 젊고 말기신부전에 의해 개인적인 부담 뿐만이 아니라 사회적, 경제적인 부담이 높기 때문에, IgA 신염 환자들을 위험도에 따라 분류하여 그에 따른 적절한 치료 방침을 세우는 것은 중차대한 과제라고 할 수 있다. 이미 IgA 신염의 결과를 예측하는 연구들이 기존에 있지만, 체계적이고 좋은 예측력을 갖는 방법은 부족한 상황이다. 우리는 본 연구에서 기계학습의 적용을 통해 새로운 예측 모형을 구축하는 것을 목표로 한다.
우리는 이를 위해 서울대학교 신경내과에서 1979년부터 2014까지 모은 자료를 기반으로 연구를 진행하였다. 자료에는 1622명의 환자들에 대한 90개 이상의 속성 정보가 들어있다. 우리는 이 중 17개의 속성들을 뽑아 예측 모형의 독립변수로 사용하였다. 하지만 이 속성들에 대해 하나 이상의 결측치를 가진 환자의 정보가 269개였는데, 이는 통계적 검정력의 큰 손실을 가져올 수 있다. 따라서 우리는 결측치 대체 방식을 이용하여 손실된 환자 정보를 복원하였다. 대체 방식의 결정을 위하여 평균값, 최빈값, 임의 대체와 같은 간단한 대체 방식을 기준으로 최근린 핫덱 대체와 연쇄식을 이용한 다변량 대체와 같은 더 복잡한 방식을 검증했다. 결과적으로 분류회귀나무를 이용한 다변량 대체가 가장 좋은 성능을 보였고 이를 적용하여 데이터를 최종 생성하였다.
위 데이터를 바탕으로 우리는 환자의 초기정보를 이용하여 10년 내에 말기신부전으로의 진행 여부를 예측하는 이진분류문제를 다뤘다. 이를 위해 다양한 기계학습법들이 적용되었는데, 의사결정나무, 로지스틱 회귀, 인공 신경망과 같은 단일 학습법을 비롯하여 배깅, 랜덤 포레스트, 부스팅의 앙상블 학습법을 사용하였다.
6가지 방식은 모두 시험 자료에 대해 0.804(의사결정나무)와 0.868(부스팅) 사이의 AUC 값을 가지며 좋은 성능을 보였다. 또한 해석력이 좋은 모형들을 분석함으로써 예후 예측 인자들에 대해 예상했던 결과를 모형 내에서 볼 수 있었고, 더 나아가 인자들 간의 상대적 중요도나 인자 별 좋고 나쁨의 기준이 되는 값들을 확인할 수 있었다. 일부 환자들에 대해서는 예상치 못한 결과를 볼 수 있었는데 이러한 결과들에 대해 후속 연구를 진행함으로써 임상적으로 유의미한 사실을 발견할 수 있을 것으로 기대된다.
IgA Nephropathy(IgAN) occurs when IgA, an immune-system protein, deposits in kidney glomerules for unknown reasons. It is the most common glomerulonephritis, and has a high prevalence rate in East Asian nations. Determining appropriate treatment protocols and classifying IgAN patients by risk level are the most pressing issues. IgAN can occur even at a very young age (average age 35), hence the patients suffer from many personal, social and economic problems during the disease course - progression to End-Stage Renal Disease(ESRD). Although a number of approaches for predicting the prognosis of IgAN are available, well-advanced methods and techniques are scarce. In this work, we aimed to build new prediction models through careful application of machine learning methods.
Our dataset was collected from 1979 to 2014 by the Division of Nephrology, Seoul National University Hospital. It includes 1622 patients' records, with more than 90 attributes. Among them, we chose 17 independent attributes for building our models. However, 269 records have missing values for at least one of these attributes, which can lead to a substantial loss of statistical prediction power.
Hence, we used value imputation techniques to restore the records for our modelling. We used mean, mode and random imputation techniques as our baselines and analysed more sophisticated methods such as nearest neighbour hot deck imputation and Multivariate Imputation by Chained Equation(MICE). MICE with Classification And Regression Trees (CART) showed better performance, and hence we used this technique for the subsequent analysis.
With this imputed data, we explored various machine learning methods. We investigated the most popular individual learners namely CART, logistic regression and neural network, and also the ensemble learners such as bagging, random forest and boosting. We treated the problem as a classification problem, of predicting progression to ESRD within the ten years following the initial diagnosis.
All six methods yielded good classifiers, with AUC performance between 0.804 (decision tree) and 0.868 (boosting). The results were generally in-line with expectations, with poor kidney performance on presentation, and evident macroscopic and microscopic damages, all associated with poorer prognosis. Further demonstrating the benefits of the application of machine learning models in medical problems. However, a set of unexpected decision rules for a small group of patients arise some interesting questions and urge us for further detailed investigation.
Language
Korean
URI
https://hdl.handle.net/10371/123148
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share