Browse

Deep learning based survival analysis model for cardiovascular risk assessment improves with a hybrid approach in combination with Cox regression: integrated data on healthcare and environmental exposure
딥러닝 기반 생존분석이 적용된 심혈관질환 위험 평가 모델 성능 향상을 위한 콕스 모형과 결합된 하이브리드 접근법: 헬스케어-환경 연계 데이터 활용 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
김규웅
Advisor
박상민
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
cardiovascular diseasehealthcare dataenvironmental exposuredeep learning based survival analysisCox proportional hazards model심혈관질환헬스케어 데이터환경 노출딥러닝 기반 생존 분 석콕스비례위험모형
Description
학위논문 (박사) -- 서울대학교 대학원 : 의과대학 의과학과, 2020. 8. 박상민 .
Abstract
Background and aims: The contribution of different cardiovascular disease (CVD) risk factors for the risk evaluation and predictive modeling for incident CVD is often debated. Also, to what extent data on CVD risk factors from multiple data categories should be collected for comprehensive risk assessment and predictive modeling for CVD risk using survival analysis is uncertain despite the increasing availability of the relevant data sources. This study aimed to evaluate the contribution of different data categories derived from integrated data on healthcare and environmental exposure to the risk evaluation and prediction models for CVD risk using deep learning based survival analysis in combination with Cox proportional hazards regression and Cox proportional hazards regression.

Methods: Information on the comprehensive list of CVD risk factors were collected from systematic reviews of variables included in the conventional CVD risk assessment tools and observational studies from medical literature database (PubMed and Embase). Each risk factor was screened for availability in the National Health Insurance Service-National Sample Cohort (NHIS-NSC) linked to environmental exposure data on cumulative particulate matter and urban green space using residential area code. Individual records of 137,249 patients more than 40 years of age who underwent the biennial national health screening between 2009 and 2010 without previous history of CVD were followed up for incident CVD event from January 1, 2011 to December 31, 2013 in the NHIS-NSC with data linkage to environmental exposure. Statistics-based variable selection methods were implemented as follows: statistical significance, subset with the minimum (best) Akaike Information Criteria (AIC), variables selected from the regularized Cox proportional hazards regression with elastic net penalty, and finally a variable set that commonly meets all the criteria from the abovementioned statistical methods. Prediction models using Cox proportional hazards deep neural network (DeepSurv) and Cox proportional hazards regression were constructed in the training set (80% of the total sample) using input feature sets selected from the abovementioned strategies and progressively adding input features by data categories to examine the relative contribution of each data type to the predictive performance for CVD risk. Performance evaluations of the DeepSurv and Cox proportional hazards regression models for CVD risk were conducted in the test set (20% of the total sample) with Uno’s concordance statistics (C-index), which is the most up-to-date evaluation metrics for the survival models with right censored data.

Results: After the comprehensive review, data synthesis, and availability check, a total of 31 risk factors in the categories of sociodemographic, clinical laboratory test and measurement, lifestyle behavior, family history, underlying medical conditions, dental health, medication, and environmental exposure were identified in the NHIS-NSC linked to environmental exposure data. Among the models constructed with different variable selection methods, using statistically significant variables for DeepSurv (Uno’s C-index: 0.7069) and all of the variables for Cox proportional hazards regression (Uno’s C-index: 0.7052) showed improved predictive performance for CVD risk, which was a statistically significant increase (p-value for difference in Uno’s C-index: <0.0001 for both comparisons) compared to the models with basic clinical factors (age, sex, and body mass index), respectively. When all and statistically significant variables in each data category from sociodemographic to environmental exposure were progressively added as input features into DeepSurv and Cox proportional hazards regression for predictive modeling for CVD risk, the DeepSurv model with statistically significant variables pertaining to the sociodemographic factors, clinical laboratory test and measurement, and lifestyle behavior data showed the notable performance that outperformed Cox proportional hazards regression model with statistically significant variables added up to the medication category. Extensive data linkage to environmental exposure on cumulative particulate matter and urban green space offered only marginal improvement for the predictive performance of DeepSurv and Cox proportional hazards regression models for CVD risk.

Conclusion: To obtain the best predictive performance of DeepSurv model for CVD risk with minimum number of input features, information on sociodemographic, clinical laboratory test and measurement, and lifestyle behavior should be primarily collected and used as input features in the NHIS-NSC. Also, the overall performance of DeepSurv for CVD risk assessment was improved with a hybrid approach using statistically significant variables from Cox proportional hazards regression as input features. When all the data categories in the NHIS-NSC linked to environmental exposure data are available, progressively adding variables in each data category could incrementally increase the predictive performance of DeepSurv model for CVD risk with the hybrid approach. Data linkage to the environmental exposure with residential area code in the NHIS-NSC offered marginally improved performance for CVD risk in both DeepSurv model with the hybrid approach and Cox proportional hazards regression model.
배경 및 목적: 심혈관질환 위험평가 및 예측모델링에서 다양한 심혈관질환 위험인자들의 모델 성능향상에 대한 기여도는 논란의 요지로 보고되어왔다. 또한, 지속적으로 증가하는 활용 가능한 심혈관질환 관련 데이터의 종류와 양에도 불구하고 포괄적인 심혈관질환 위험평가와 최적의 예측 모형 개발을 위해 데이터를 어느 범위와 수준까지 수집해야 하는지에 대한 근거는 부족한 현황이다. 본 연구에서는 콕스 모형과 결합된 딥러닝 기반 생존분석 접근법 및 콕스 모형을 활용한 심혈관질환 위험평가와 예측모델링에서 헬스케어-환경 연계 데이터 활용방법 및 범주에 따른 모델 성능향상에 대한 기여도를 평가하고자 하였다.

연구 방법: 전통적 심혈관질환 위험 평가 도구 및 관찰 연구들에 포함 된 심혈관질환 위험요인 관련 변수들을 체계적 문헌고찰 방법론을 활용하여 의학연구 문헌데이터베이스 (PubMed and Embase)에서 포괄적으로 정보를 수집하였다. 미세먼지 누적장기노출 및 도시녹지면적에 대한 환경 노출 데이터와 연계 된 국민건강보험공단 표본코호트, (National Health Insurance Service-National Sample Cohort, NHIS-NSC)에서 각 심혈관질환 위험인자들의 데이터 확보 가능성을 검토하였다. NHIS-NSC를 기준으로 2009년에서 2010년 사이에 국가건강검진을 받은 40세 이상 대상자 중 과거 심혈관질환 병력이 없는 대상자 137,249명의 환자에 대한 정보를 수집하여 2011 년 1 월 1 일부터 2013 년 12 월 31 일까지 신규 발생한 심혈관질환에 대해 시간 경과에 따라 추적 조사하였다. 통계 기반 변수선택 방법은 콕스비례위험모형에서 통계적 유의성, 최소 (최상의) Akaike Information Criteria (AIC)의 하위 집합, elastic net penalty로 정규화 된 콕스비례위험모형에서 선택된 변수 및 위에 언급된 모든 기준을 충족하는 변수 세트로 선정하였다. 위에 명시된 통계적 방법 외 모든 데이터 범주에 속한 변수 및 콕스비례위험모형에서 통계적으로 유의미한 변수 (하이브리드 접근법)를 점진적으로 입력 피쳐로 추가하는 전략으로 딥러닝 기반 생존분석 (Cox proportional hazards deep neural network, DeepSurv) 및 콕스비례위험모형에서 예측 모델들을 훈련 세트 (전체 샘플의 80 %)를 기반으로 개발하였다. DeepSurv 및 콕스비례 위험모형을 활용한 심혈관질환 예측 모델의 성능평가는 생존분석을 활용한 예측 모델링에 가장 적합한 평가지표로 알려진 Uno’s concordance statistics (C-index)를 사용하여 테스트 세트 (총 샘플의 20 %)에서 수행하였다.

결과: 체계적 문헌고찰, 데이터 취합 및 추출 가능성 검토 후, 인구사회학적 요인, 건강검진 및 측정 결과, 생활습관, 가족력, 건강상태, 구강건강, 약물 및 환경 노출 데이터 범주에서 총 31 개의 심혈관질환 위험인자가 지역환경 자료와 연계된 NHIS-NSC에서 확인되었다. 통계 기반 변수선택 방법으로 개발한 심혈관질환 예측 모델 중 콕스비례위험모형에서 통계적으로 유의미한 변수를 DeepSurv에 적용한 하이브리드 접근법이 Uno 's C-index 값 0.7069, 모든 변수를 콕스비례위험모형에 적용한 콕스비례위험모형이 Uno 's C-index 값 0.7052로 나타나 기본 임상 요인 (연령, 성별 및 체질량지수)이 포함된 예측 모델과 비교하여 통계적으로 유의미한 모델 예측력 증가를 보였다 (두 모델 모두 Uno’s C-index 차이에 대한 p-value : <0.0001). 인구사회학적 특성에서 환경 노출에 이르기까지 각 데이터 범주에서 모두 통계적으로 유의미한 변수들이 심혈관질환 예측 모델링을위한 DeepSurv 및 Cox 비례 위험 회귀에 입력 피쳐로 점진적으로 추가 된 경우, 인구사회학적 요인, 건강검진 및 측정 결과, 생활습관 요인 중 통계적으로 유의미한 변수들로 구성된 DeepSurv 모델이 의약품 사용까지 고려한 Cox 비례 위험 회귀를 기반으로 한 모델 보다 뛰어난 성능을 나타냈다. 미세먼지 및 도시녹지면적에 대한 환경 노출 데이터를 거주지를 기반으로 NHIS-NSC와 연계 후 점진적으로 입력 피쳐로 추가 시 DeepSurv 및 콕스비례위험모형을 활용한 심혈관질환 예측 모델링 성능을 통계적으로 유의미한 수준으로 개선하지 못했다.

결론: 최소 입력 피쳐를 갖춘 생존 분석 기반 심혈관질환 예측 모델에서 최상의 성능을 얻으려면 인구사회학적, 건강검진 및 측정 결과, 및 생활습관에 대한 정보를 NHIS-NSC에서 수집하여 DeepSurv의 입력 피쳐로 활용해야한다. 지역환경 자료와 연계된 NHIS-NSC에서 모든 데이터 범주를 사용할 수 있을 때 점진적으로 각 데이터 범주 중 콕스비례위험모형에서 통계적으로 유의미한 심혈관질환 위험인자를 점진적으로 입력 피쳐로 DeepSurv 모델에 추가하는 하이브리드 접근법에서 심혈관질환 예측 모델링 성능이 점차 향상 될 것으로 기대할 수 있다. 주거 지역 코드를 사용한 NHIS-NSC와 환경 노출 데이터 연계는 DeepSurv 및 콕스비례위험모형 모두에서 심혈관질환 예측 모델링 성능이 향상되었지만 통계적으로 유의미한 증가 수준은 아닌 것으로 나타나 환경 노출 데이터 연계 및 적용 시 검토가 필요할 것으로 추정된다.
Language
eng
URI
http://hdl.handle.net/10371/170363

http://dcollection.snu.ac.kr/common/orgView/000000161683
Files in This Item:
Appears in Collections:
College of Medicine/School of Medicine (의과대학/대학원)Dept. of Biomedical Sciences (대학원 의과학과)Theses (Ph.D. / Sc.D._의과학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse