Publications

Detailed Information

한국 성인에서 심뇌혈관 질환 위험도 예측 : Prediction of Cardiovascular Risk in Korean Adults: Cox proportional hazards model and privacy-preserving deep learning
Cox 비례위험모형과 프라이버시 보전 딥러닝

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최승혁

Advisor
윤형진
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
전이반복학습프라이버시보전딥러닝예측모형심뇌혈관질환연합학습공통데이터모형
Description
학위논문(박사) -- 서울대학교대학원 : 의과대학 의학과, 2022. 8. 윤형진.
Abstract
While artificial intelligence (AI) has demonstrated extensive potential in various domains, developing AI models in healthcare is limited because of medical data privacy restrictions. Privacy preserving deep learning (PPDL) attempts to train AI models while protecting data privacy, and one type of PPDL training algorithm named federated learning (FL) has been gaining attention as a solution. However, FL is based on model synchronizations that require automated FL platforms, which may be difficult to implement in some medical institutions with closed networks. We present transfer iterative learning (TIL), a decentralized PPDL training algorithm based on transfer learning which can achieve model performances comparable to FL at lower communication cost.
Therefore, the main purpose of this study is to preliminarily analyze predictive modeling applying the conventional statistical method using data from the National Health Insurance Service, and to analyze the patient data implemented in the Common Data Model (CDM) of a single institution. It is to implement FL and TIL by simulating with multicenter data and compare the performance.
For predictive modeling with clinical significance, although many prediction models for cardiovascular diseases (CVDs) have been developed and validated for Western populations, the development of CVD prediction models for Asians has been slow. Our cohort study retrospectively analyzed the incidence of CVD that occurred between January 1, 2009, and December 31, 2016, in all Koreans who underwent national health screening. This dataset included 21,581,796 adults between the ages of 40 and 79 years (10,412,947 men, 11,168,849 women) without CVD at baseline. The primary outcome, CVD, was defined as the development of any of the following: acute coronary syndrome, cerebral infarction, and cerebral hemorrhage, as defined with health insurance claims data. The prediction model was constructed by Cox proportional hazard regression and validated with tenfold cross‐validation. The performance of the models was evaluated through Harrell's C‐index and Brier score. The discrimination of the models was assessed by the area under the receiver operating characteristic curve (AUROC). Our model showed an AUROC of 0.762 in men and 0.811 in women. The Brier score of our model was 0.018 in men and 0.010 in women, which was better than the pooled cohort equation (PCE). Our novel model performed better than the FRS and PCE for Koreans.
To test the performance of TIL as a follow-up experiment, a predictive model of CVDs was created using data composed of 40,507 diabetic patients implemented in the CDM of Seoul National University Hospital. The worst and best TIL models presented relative efficiency (RE) of 97.6% and 99.6 %, respectively, compared to the model trained on aggregated data. FL demonstrated 99.4% RE, and the worst and best local learning models showed 85.1% and 99.3% RE, respectively. The results suggest that TIL is a communication efficient PPDL training algorithm which could be considered as an alternative to FL for medical institutions that could not support an FL framework.
인공지능 (Artificial Intelligence; 이하 AI)이 여러 분야에서 광범위한 잠재력을 보여 주고 있지만 의료 분야에서 인공지능 모형을 개발하는 것은 개인정보보호에 대한 제약으로 인해 제한되고 있다. 프라이버시 보전 딥러닝 (Privacy Preserving Deep Learning; 이하 PPDL)은 개인정보를 보호하는 동시에 AI 모형을 훈련할 수 있으며, 그의 일종인 연합학습 (Federated Learning; 이하 FL)은 PPDL의 해답으로서 각광을 받고 있다. 하지만, FL은 자동화된 플랫폼을 요하는 모형 동기화에 기반을 두고 있어 폐쇄 네트워크를 지닌 의료 기관에서 이를 활용하기 어렵다. 반면, 전이반복학습 (Transfer Iterative Learning; 이하 TIL)은 전이 학습 (Transfer Learning)에 기반, 탈중앙화된 PPDL 훈련 알고리즘으로서 더 적은 통신 비용으로 FL에 비견할만한 모형의 성능을 달성할 수 있다.
따라서 본 연구의 주요 목적은 건강보험공단의 데이터를 이용하여 기존의 통계 방법론을 응용한 예측 모형을 예비 분석으로 하고, 단일 기관의 공통 데이터 모형 (Common Data Model; 이하 CDM)에 구현된 환자 데이터를 다기관 데이터로 시뮬레이션하여 FL과 TIL을 구현하고 성능을 비교하는 것이다.
임상적 의미를 지닌 예측 모형 작성을 위하여, 서구권 인구에 대해 개발되고 검증된 심뇌혈관질환에 대한 예측 모형이 많지만, 한국을 포함한 아시아 인구를 대상으로 개발된 모형은 진행이 더디다. 2009년 1월에서 2016년 12월까지 건강보험공단의 국가 건강검진을 시행 받은 한국인 중 심뇌혈관질환의 발병을 후향적으로 분석하였다. 이 데이터셋은 기저에 심뇌혈관 질환이 없는 40세에서 79세 사이의 21,581,796명 (남성: 10,412, 947명, 여성: 11,168,849명)의 성인으로 구성되었다. 일차 결과인 심뇌혈관질환은 급성 관상동맥증후군, 뇌경색과 뇌출혈의 발생으로 정의하였으며 이는 건강보험공단의 명세서 데이터를 이용하였다. 예측 모형은 Cox 비례 위험 모형으로 제작되었으며 10회 교차 검증으로 검증하였다. 모형의 성능은 Harrells C-index와 Brier score로 평가하였다. 모형의 구분 능력 (discrimination)은 수신자 작동특성곡선 분석의 곡선하 면적 (Area Under the Receiver Operating Characteristics curve; 이하 AUROC)으로 분석하였다. 모형의 AUROC는 남성에서 0.762, 여성에서 0.811를 보였으며, Brier score는 남성에서 0.018, 여성에서 0.010이었다. 본 연구의 모형은 한국인에 대해서 Framingham risk score (FRS)와 pooled cohort equation (PCE)보다 좋은 성능을 보였다.
데이터를 공유할 수 없는 환경에서 심뇌혈관질환을 예측하기 위한 방법론 중 FL과 TIL의 성능을 실험하기 위해, 40,507명의 서울대학교병원의 CDM에 구현된 2형 당뇨 환자로 구성된 데이터를 사용하여 심뇌혈관질환의 예측 모형을 작성하였다. 다기관을 시뮬레이션하기 위해 5개의 상이한 분포를 지닌 가상의 기관으로 나누었고, TIL 모형은 모든 데이터를 통합해 제작된 모형과 비교하여 가장 낮은 경우 97.6%, 가장 좋은 경우 99.6%의 상대적 효율성 (Relative Efficiency; 이하 RE)을 보였다. FL은 99.4%의 RE를 보였으며, 협력 없이 자신의 데이터만으로 학습한 지역 학습 모형은 가장 낮은 경우 85.1%, 가장 좋은 경우 99.4%의 RE를 보였다. 이를 종합하면 FL 프레임워크를 사용할 수 없는 의료 기관에 대해 FL의 대안으로서 TIL이 통신에 효율적인 PPDL 훈련 알고리즘으로 제안될 수 있다.
Language
kor
URI
https://hdl.handle.net/10371/188397

https://dcollection.snu.ac.kr/common/orgView/000000173039
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share