Publications

Detailed Information

만성신장질환에 대한 정적 및 동적 예측 모델 : Static and dynamic predictive model for chronic kidney disease progression: KNOW-CKD study

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

안우주

Advisor
박수경
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
Chronickidneydiseasepredictivemodelinternalvalidationmachinelearningrandomsurvivalforestgradientboostingmachineelasticnet
Description
학위논문(석사) -- 서울대학교대학원 : 의과대학 의학과, 2022. 8. 박수경.
Abstract
Introduction: Chronic kidney disease (CKD) is recognized as a major public health problem worldwide. The estimated global prevalence of CKD is 13.4% (11.7-15.1%), and it is estimated that 4.902 to 7.083 million patients with end stage renal disease (ESRD) need kidney replacement treatment. The number of patients with CKD increased by 8% annually from 2016 to 2020 in Korea. In addition, the incidence and prevalence of ESRD patients are increasing. In longitudinal observational study, CKD patients had nonlinear or long-term non-progress rather than steady eGFR reduction over time. Therefore, we need a dynamic model that uses latest-available-measurement rather than a static model that uses data from a baseline visit. The objective of this study is to compare our data with a dynamic and static predictive model using a conventional statistical model and machine learning methods.
Methods: Data were collected from the Korean Cohort Study for Outcomes in Patients With Chronic Kidney Disease (KNOW-CKD). We analyzed data for 1,585 patients with CKD, excluding patients with autosomal dominant polycystic kidney disease (ADPKD). Missing values were imputed by multiple imputation. The primary outcome was a composite of the first occurrence of a 50% decline in eGFR from the baseline value or the onset of ESRD during follow-up. We made a static which is using baseline values and dynamic prediction model using the latest available measurement values. Cox proportional hazards, random survival forest, gradient boosting machine, and elastic net were used in predictive model. We split dataset into training and validation set by four methods which are split-sample, temporal follow-up, temporal registration, and geographical validation. The models performance was evaluated using time-dependent area under curve (AUC).
Results: Among 1,585 subjects, mean age was 54.9 ± 12.1 years and 37.2% were women. Mean urine albumin/creatinine ratio was 1.1 ± 1.5 g/g and the mean baseline estimated glomerular filtration rate (eGFR) was 49.3 ± 28.7 mL/min/1.73m^2. The mean systolic blood pressure was 127.7 ± 16.6 mmHg. Subjects with diabetes mellitus (DM) comprised 27.2% of the study subjects. From baseline to 3-years follow up, the hazard ratios (HRs) of eGFR and DM decreased and C statistics increased. Time-dependent AUC showed the similar tendency in cox and machine learning methods. Furthermore, it demonstrated a good level of discrimination capability in internal validations by split-sample, temporal follow-up, temporal registration, and geography methods.
Conclusions: In this study, we compared between static and dynamic models, finding that dynamic model showed stable and high time-dependent AUC values in all predictive models. Considering eGFR, which is difficult to predict, dynamic models that predict short-term events may be better when developing prediction models of CKD progression.
연구 배경: 만성 신장 질환은 전 세계적으로 주요 공중 보건 문제로 인식되고 있다. 전 세계 만성 신장 질환 유병률은 13.4%(11.7~15.1%)로 추정되며, 말기 신장 질환 환자 490만 2000명에서 708만 3000명이 신장이식 치료가 필요한 것으로 추산된다. 한국 만성 신장 질환 환자 수는 2016년부터 2020년까지 매년 8%씩 증가했다. 또한 말기 신장 질환 환자의 발생률과 유병률이 증가하고 있다. 종단 관찰 연구에서 만성 신장 질환 환자는 시간에 따른 지속적인 사구체 여과율 감소보다는 비선형적이거나 장기적인 비진행 상태를 보였다. 따라서 우리는 처음 방문했을 때의 데이터를 사용하는 정적 모델보다는 사용 가능한 최근에 측정된 데이터를 사용하는 동적 모델이 필요하다. 이 연구의 목적은 기존의 통계 모델과 기계 학습 방법을 사용하여 우리의 데이터를 동적 및 정적 예측 모델과 비교하는 것이다.
연구 방법: 데이터는 Korean Cohort Study for Outcomes in Patients With Chronic Kidney Disease (KNOW-CKD)에서 수집되었다. 상염색체 우성 다낭성 신장병(ADPKD) 환자를 제외한 만성 신장 질환 환자 1,585명의 데이터를 분석했다. 결측값은 multiple imputation 방법을 통해 대체되었다. 주요 결과지표는 기준 값에서 eGFR이 50% 감소하거나 추적 관찰 중에 이식이나 투석을 하게 되는 경우이다. 우리는 기준 값을 사용하는 정적 모델과 사용 가능한 최신 측정값을 사용하는 동적 모델을 만들었다. 예측 모델에는 콕스 비례 위험, random survival forest, gradient boosting machine, elastic net들이 사용되었다. 우리는 데이터 세트를 split-sample, temporal follow-up, temporal registration 및 geographical validation라는 네 가지 방법에 의해 훈련용 데이터와 검증 데이터로 나누었다. 모델의 성능은 시간 의존적 곡선 아래 면적(AUC)을 사용하여 평가되었다.
연구 결과: 1,585명의 피험자 중 평균 연령은 54.9 ± 12.1세였으며 37.2%가 여성이었다. 평균 소변 알부민 크레아티닌 비율은 1.1 ± 1.5 g/g, 평균 기준선 추정 사구체 여과율은 49.3 ± 28.7 mL/min/1.73 m^2였다. 평균 수축기 혈압은 127.7 ± 16.6 mmHg이었다. 여성은 589명(37.2%)이었고 당뇨를 받은 피험자는 27.2%였다. 기준치에서 3년 추적 관찰까지 추정 사구체 여과율과 당뇨의 위험비가 감소하고 C statistics가 증가했습니다. 모델의 성능은 콕스 비례 위험과 기계 학습 방법에서 유사한 경향을 보였다. 또한 내부 검증에서 우수한 수준의 식별 능력을 보여주었다.
결론: 본 연구에서는 정적 모델과 동적 모델을 비교하여 동적 모델이 모든 예측 모델에서 안정적이고 높은 시간 의존성 AUC 값을 나타냈다는 것을 발견했다. 예측이 어려운 추정 사구체 여과율을 고려하면 만성 신장 질환 악화 예측 모델을 개발할 때 단기 이벤트를 예측하는 동적 모델이 더 나을 수 있다.
Language
eng
URI
https://hdl.handle.net/10371/188389

https://dcollection.snu.ac.kr/common/orgView/000000171791
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share