Publications
Detailed Information
MIMIC-IV로 학습한 중환자실 사망 예측 모델의 성능 외부 검증 : External Validation of the performance of an Intensive Care Unit Mortality Prediction Model Trained with MIMIC-IV
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 이형철
- Issue Date
- 2023
- Publisher
- 서울대학교 대학원
- Description
- 학위논문(석사) -- 서울대학교대학원 : 의과대학 의학과, 2023. 8. 이형철.
- Abstract
- 연구배경: 의료에서 빅데이터(big data) 구축 및 인공지능 모델 개발을 넘어, 의료 현장에서 인공지능을 어떻게 활용할 것인지에 대한 논의가 활발하다. 특히 Medical Information Mart for Intensive Care (MIMIC), eICU Collaborative Research Database 등 공개 데이터베이스를 활용한 연구는 많으나 다른 나라 다른 의료기관 중환자실에서 좋은 외부 검증(external validation) 결과가 나온 연구는 거의 없다. 본 연구에서는, 외국의 공개 데이터베이스를 활용하여 실제 중환자실 환경에서 자동으로 수집 가능한 데이터를 이용하여 원내 사망을 실시간으로 예측하는 기계학습 모델을 개발하고, 이를 지리적 시간적으로 구분된 국내 의료기관에 적용하였을 때 유의미한 성능이 나오는지 검증해 보았다.
대상 및 방법: MIMIC-IV의 환자들 중 18세 이상이며 24시간 이상 체류한 중환자실 환자 23,152명을 개발용 코호트(development cohort)로 구축하였다. 이전 약 24시간 동안의 활력 징후 데이터(vital data)를 1시간 간격으로 추출하여, 이후 24시간 이내 사망 여부(mortality)를 예측하는 모델을 개발하였다. 일반적으로 사용되는 gradient boosting machine (GBM), 장단기 메모리(long short-term memory, LSTM), 트랜스포머(transformer)의 기계학습 방법을 검토하였으며, 사후 확률 보정(post-hoc probability calibration) 기법을 적용하였다. 평가 기준으로 area under the receiver operating characteristic (AUROC) curve, area under the precision-recall curve (AUPRC), F1 점수, F2 점수, 확률 보정 곡선(calibration curve) 등을 사용하여, 내부 검증(internal validation)용 시험용 데이터 세트(testing dataset)에서 모델의 성능을 평가하였다. 개발용 코호트와 지리적, 시간적으로 구분된 국내 의료기관인 서울대학교병원에서 같은 조건의 환자 5,745명으로 검증용 코호트(validation cohort)를 구축한 후, 이를 대상으로 하여 외부 검증하였다.
결과: 내부 검증에서 GBM 모델이 가장 우수하여 AUROC 0.903, AUPRC 0.346 (기준값 0.021), F1 점수 0.383, F2 점수 0.378를 보였으며, 확률 보정을 통해 과다 추정(overestimation) 양상이 교정되었다. 외부 검증에서 AUROC는 0.933으로 잘 유지되었으나, AUPRC 0.181 (기준값 0.009), F1 점수 0.202, F2 점수 0.341로 감소하였고, 확률 보정 곡선상 과다 추정 양상이 교정되지 않는 등, 종합적인 성능이 감소하였다.
결론: 공개 데이터베이스를 활용하여 만든 기계학습 모델이 지리적 시간적으로 구분된 타 국가의 의료기관을 대상으로 한 외부 검증에서 성능이 감소하였다. 각 의료기관의 데이터에 특화된 모델 생성 혹은 기존 모델의 재학습을 포함하여 임상에서 인공지능 모델을 활용할 수 있는 방안에 대한 연구가 필요하다.
Background: While there has been significant progress in the build of big data and development of artificial intelligence (AI) models for healthcare, the practical application of these models remains a topic of active debate. Many AI studies utilize public intensive care unit (ICU) databases, such as the Medical Information Mart for Intensive Care (MIMIC) and eICU Collaborative Research Database, but few have demonstrated meaningful external validation results in diverse healthcare settings. This study aimed to develop a machine learning model to predict patient mortality in real-time from automatically collectable data in a real ICU environment by utilizing foreign public databases, and to validate its performance when applied to a geographically and temporally distinct Korean medical institution.
Methods: A development cohort was established from MIMIC-IV, consisting of 23,152 ICU patients aged 18 or above with a minimum stay of 24 hours. Vital data from the preceding 24 hours or so, collected in 1-hour intervals, was used to develop a model predicting mortality within the next 24 hours. Three commonly used machine learning methods, gradient boosting machine (GBM), long short-term memory (LSTM), and transformer, were examined, and post-hoc probability calibration techniques were applied. The performance of the model was evaluated on a testing dataset for internal validation using metrics including the area under the receiver operating characteristic (AUROC) curve, the area under the precision-recall curve (AUPRC), F1 and F2 scores, and probability calibration curves. Subsequent to the formation of a validation cohort of 5,745 patients at Seoul National University Hospital, a facility distinct in geography and time from the cohort used for development, an external validation process was carried out.
Results: In the internal validation, the GBM model performed best, exhibiting an AUROC of 0.903, an AUPRC of 0.346 (baseline: 0.021), an F1 score of 0.383, and an F2 score of 0.378. Overestimation was rectified through probability calibration. In the external validation, the AUROC was well-maintained at 0.933, but the AUPRC decreased to 0.181 (baseline: 0.009), F1 score to 0.202, and F2 score to 0.341. Additionally, overestimation trends were not corrected on the probability calibration curve, leading to an overall decrease in performance.
Conclusion: The performance of the machine learning model, developed using a public database, decreased during external validation targeting a medical institution in another country that is geographically and temporally distinct. Research is needed on ways to utilize artificial intelligence models in clinical settings, including the creation of models specialized for each medical institution's data or retraining of existing models.
- Language
- kor
- Files in This Item:
- Appears in Collections:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.