Publications

Detailed Information

공통 데이터 모델 기반의 계획에 없던 병원 재입원 예측모델 개발 : Development of the Prediction Model for Unplanned Hospital Readmission based on the Common Data Model

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

유보림

Advisor
최진욱
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
병원 재입원기계학습예측모델공통데이터모델대기오염
Description
학위논문(박사) -- 서울대학교대학원 : 의과대학 의학과, 2022.2. 최진욱.
Abstract
Unlike other clinical quality measures, hospital readmissions occur relatively frequently, and data can be easily obtained through administrative data, making it suitable for comparing outcomes between medical institutions. Since unplanned hospital readmission includes the possibility of quality problems in initial patient care, readmission within a short period of time after discharge is a key indicator to evaluate the quality of patient care and the appropriateness of a discharge plan.
In the United States, with the introduction of a system that grants incentives for each hospital based on the readmission index within 30 days after discharge at the national level, many studies have been conducted to predict readmission and manage the quality of medical care. Since the predictive model is created based on data from a specific single institution, it has limitations that are difficult to apply to other institutions.
Common data model (CDM) refers to a data model with the same structure and standard applicable to medical data with different structures owned by medical institutions. Within the last decade, several CDMs have been collaboratively developed for clinical research. Among them, OMOP CDM has the advantage of having a data structure that is optimized for multi-institutional joint research by using not only the same data structure but also a physical and logical common model based on a common medical terminology system. OMOP CDM ranks highest in most evaluation criteria when compared to other CDM models based on content coverage, integrity, flexibility, simplicity, integration and implementability. Currently, medical data from many countries around the world has been converted into OMOP CDM, and multicenter research is actively underway. Therefore, this study tried to develop an unplanned readmission prediction model within 30 days after discharge based on a common data model that can be applied to multiple institutions for efficient management of readmission. In particular, a 'W-score' reflecting the weather and atmospheric environment data of the patient's residence was proposed and applied to the model.
To define unplanned readmissions, we referenced the U.S. CMS hospital-wide unplanned readmissions by all causes indicators. Planned hospitalizations were defined first, and the remaining hospitalizations were assumed to be unscheduled hospitalizations. In this study, patients living in Seoul and Gyeonggi-do were admitted to the hospital and visited the emergency room at least once between 2017 and 2018. A model was developed using clinical data from Seoul National University Hospital and Seoul National University Bundang Hospital converted to OMOP CDM. Including the patient's gender, age, and residence information, the main diagnosis and subgroup, visit type, drug prescription, procedure and surgery, clinical laboratory tests, and comorbidity index were used.
A predictive model based on a logistic regression model, a traditional statistical technique, and a tree-based machine learning technique, decision tree, random forest, adaptive boosting, and gradient boosting algorithms was constructed. To verify the performance of the model, 10-fold cross-validation was performed by dividing the data internally into test data first on the model built with the training data of Seoul National University Hospital, and an external verification experiment was performed using the Seoul National University Bundang Hospital data as validation data. Finally, the performance of the predictive model was confirmed. As for the performance verification index, the performance of the model was evaluated based on the ROC graph and the AUC value, and the results for performance indexes such as sensitivity and specificity were also presented.
First, a time variable exploration model of readmission within 30 days after discharge for all diseases was constructed for a patient group of all age groups. Here, a model was constructed including clinical data that occurred before 365 days, 180 days, and 30 days prior to the patient's discharge date, and a variable reflection method effective in predicting readmission within 30 days after discharge was explored. In addition, we developed a model for comparing the concept level of diagnosis and drug prescription data according to the concept level of the standard terminology of the OMOP CDM and verifying the external performance. For all disease groups of patients of all ages, it was confirmed that the model created by the method of reflecting clinical variables within 30 days before discharge and the method of reflecting variables at a higher conceptual level of terminology showed good performance.
A readmission prediction model was developed that reflects environmental factors that change over time using clinical data, weather, and atmospheric environment data. A W-score was created from the meteorological data of the patient's residence, and the performance was compared with a model made only with clinical data, and external performance evaluation was verified. In this experiment, detailed disease models of circulatory system disease, psychiatric disease, musculoskeletal disease, and respiratory system disease were created based on the patient's discharge diagnosis, and the performance difference of each model was confirmed. As a result, the gradient boost machine algorithm based model of musculoskeletal disorders performed the best. In the results of the gradient boost model, based on the AUC values, 84.14% of patients of all age groups and clinical models of all disease subjects, 75.1% of musculoskeletal disease models of elderly patients over 65 years of age, 74.7% of psychiatric disease models, and circulatory system disease The performance of the model was 72.6% and the respiratory system disease model was 67.2%.
Through this study, for the first time in Korea, using the common data model of OMOP CDM, we developed a predictive model that can explore patient's clinical data and predict unplanned hospital readmission within 30 days from the patient's discharge. It has the originality of the study in that it developed a model designed to help clinical decision-making about re-hospitalization within the next 30 days by developing a model reflecting 7 days of weather information based on the patient's discharge time. It can be differentiated from many previously published studies in that meteorological data for the patient's residence is applied, individual results of individual patients are confirmed, and the importance of variables is presented together as a model result. And since it is a model made with a common data model, it has advantages such as CDM-based extended applicability and logical unity of data terminology.
재입원은 다른 임상 질 지표와 달리 비교적 빈번하게 발생하고 행정 자료를 통해 쉽게 자료를 얻을 수 있어 의료기관 간 성과를 비교하기 적합하여 조기 재입원율은 의료의 질 지표로 활용되고 있다. 계획되지 않은 재입원은 처음의 환자 진료에서 질적인 문제점이 있을 가능성을 포함하고 있으므로 진료 후 단기간 내의 재입원은 환자 진료의 질과 퇴원 계획의 적절성을 평가하는 주요 지표이다. 미국에서 국가적 차원에서 퇴원 후 30일 이내 재입원 지표를 기반으로 병원 별 인센티브를 부여하는 제도가 도입되면서 재입원을 예측하여 의료의 질을 관리하기 위한 많은 연구가 이루어지고 있지만, 개발된 많은 재입원 예측 모델은 특정 단일 기관의 데이터를 기반으로 만들어졌기 때문에 다른 기관에 적용하기 어려운 한계를 가진다.
공통데이터모델(Common data model, CDM)은 의료기관들이 보유한 저마다의 다른 구조를 가지는 의료 데이터에 적용 가능한 동일한 구조와 규격의 데이터 모델을 말하며, 그 중에서도 OMOP CDM은 동일한 데이터 구조 뿐만 아니라 공통 의료용어체계를 기반으로 물리적, 논리적으로 공통되는 모델을 사용하여 다기관 공동 연구에 최적화된 데이터 구조를 가지는 장점이 있다. OMOP CDM은 콘텐츠 적용 범위, 무결성, 유연성, 단순성, 통합 및 구현 가능성을 기반으로 다른 CDM 모델과 비교할 때 대부분의 평가 기준에서 가장 높은 순위를 기록하며 현재 전 세계적으로 많은 국가의 의료 데이터가 OMOP CDM으로 변환되어 다기관 연구가 활발히 진행중이다. 따라서 본 연구는 재입원의 효율적 관리를 위해 다기관 적용이 가능한 공통데이터모델 기반으로 퇴원 후 30일 이내에 계획에 없던 재입원 예측모형을 개발하고자 하였다. 특히 환자 거주지의 기상과 대기 환경 데이터를 반영한 W-점수를 제안하여 모델에 적용하였다.
계획되지 않은 재입원을 정의하기 위해 미국 보건의료재정청의 병원 전체의 모든 원인에 의한 계획되지 않은 재입원 지표를 참고했다. 계획된 입원을 먼저 정의하고 그 외의 나머지 입원은 예정되지 않은 입원으로 가정했다. 본 연구에서는 서울과 경기 지역에 거주하고 2017년에서 2018년 동안 입원 및 응급실 방문 1회 이상인 환자를 대상으로 하였고, OMOP CDM으로 변환된 서울대학교병원과 분당서울대학교병원의 임상 데이터를 사용하여 모델을 개발했다. 환자의 성별, 연령, 거주지 정보를 포함하여, 주진단 및 부진단, 방문 형태, 약 처방, 시술 및 수술, 임상 실험실 검사, 동반질환 지수 등을 사용하였다. 전통적 통계기법인 로지스틱 회귀모형과 트리 기반의 기계학습 기법인 의사결정 트리, 랜덤 포레스트, 적응 부스팅, 그레디언트 부스트 알고리즘을 기반으로 하는 예측모델을 구축하였다. 모델의 성능 검증을 위해서 서울대학교병원의 훈련 데이터로 구축한 모델을 먼저 테스트 데이터로 내부적으로 데이터를 나누어 10겹 교차검증을 수행하였고, 분당서울대학교병원 데이터를 검증 데이터로 적용하는 외부 검증 실험을 수행함으로써 최종적으로 예측모델의 성능을 확인하였다. 성능 검증 지표는 ROC 그래프와 AUC값을 기준으로 모델의 성능을 평가하였고 민감도와 특이도와 같은 성능 지표에 대한 결과도 제시하였다.
먼저 전체 연령대의 환자군을 대상으로 모든 질환에 대한 퇴원 후 30일 이내 재입원의 시간 변수 탐색 모델을 구성하였다. 여기에서는 환자의 퇴원일을 기준으로 365일 이전, 180일 이전, 30일 이전 동안에 발생한 임상 데이터를 포함하여 모델을 구성하였고, 퇴원 후 30일 이내 재입원 예측에 효과적인 변수 반영 방법을 탐색하였다. 또한, OMOP CDM의 표준 용어의 개념 수준에 따른 진단, 약물 데이터의 개념 수준 비교 및 외부 성능 검증 모델을 개발했고, 전체 연령 환자의 모든 질환군에 대해 퇴원 이전 30일 이내의 임상 변수를 반영하는 방법과 용어의 상위 개념 수준으로 변수를 반영하는 방법으로 만든 모델이 좋은 성능을 내는 것을 확인하였다. 임상 데이터와 기상, 대기 환경 데이터를 활용하여 시간대별 변화하는 환경적 요인을 반영하는 재입원 예측 모델을 개발하기 위하여 환자 거주지의 기상 측정 데이터로 W-점수를 만들어 임상 데이터로만 만든 모델과의 성능 비교를 하고, 외부 성능 평가를 검증하였다. 이 실험에는 환자의 퇴원 진단을 기준으로 순환 계통 질환, 정신과 질환, 근골격계 질환, 호흡 계통 질환의 세부 질환 모델을 구성하여 각 모델 별 성능 차이를 확인하였다. 결과적으로, 근골격계 질환의 그레디언트 부스트 머신 알고리즘 기반의 모델이 가장 성능이 높았다. 그레디언트 부스트 모델의 결과에서 AUC값을 기준으로 전체 연령대의 환자와 모든 질환 대상의 임상 모델은 84.14%, 65세 이상의 고령 환자에 대한 근골격계 질환 모델에서는 75.1%, 정신과 질환 모델에서는 74.7%, 순환 계통 질환 모델에서는 72.6%, 호흡 계통 질환 모델은 67.2%의 성능을 확인하였다.
본 연구를 통해 국내에서는 처음으로 OMOP CDM의 공통데이터모델을 사용하여 환자의 임상 데이터를 탐색하고 환자의 퇴원 시점에서 이후 30일 이내의 계획에 없던 병원 재입원을 예측할 수 있는 예측 모델을 개발하였다. 환자의 퇴원 시점을 기준으로 7일 간의 기상 정보를 반영한 모델을 개발함으로써 향후 30일 이내의 재입원 발생에 대한 임상 의사결정에 도움을 줄 수 있도록 설계된 모델을 개발한 것에 연구의 독창성을 가진다. 기존에 발표된 많은 재입원 모델과는 다르게 특정 기상현상에 대한 데이터를 반영한 모델이라는 점과, 개인 환자의 개별 결과를 확인하였다는 점, 그리고 모델 결과로써 변수 중요도를 함께 제시하였다는 점에서 다른 연구와의 차별성을 가질 수 있고, 공통데이터모델로 만들어진 모델이기 때문에, CDM 기반의 확장 적용성과 데이터 용어의 논리적 통일성과 같은 장점도 가진다.
Language
kor
URI
https://hdl.handle.net/10371/183024

https://dcollection.snu.ac.kr/common/orgView/000000170049
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share