Publications

Detailed Information

검진 코호트에서 흉부 X선 영상에 대한 딥러닝 기반 인공지능 모델의 유용성 평가 : Validation of Deep-Learning Algorithms in Chest Radiographs in Screening Cohorts

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이종혁

Advisor
박창민
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
딥러닝진단검진결핵폐암흉부 X선computer-assisted
Description
학위논문(박사) -- 서울대학교대학원 : 의과대학 의학과, 2022.2. 박창민.
Abstract
서론: 인공지능 기반 병변 검출 딥러닝 (DL) 알고리듬의 검진 흉부 X선 검사에서 활동성 결핵과 폐암 검출능을 확인하고, 폐암 발생을 예측하는 인공지능 알고리듬 (CXR-LC 모델)을 이용하여 폐암 검진 CT 수검자 선택 최적화에 관한 유용성을 검증하고자 한다.
방법: 병변 검출 DL 모델과 CXR-LC 모델의 유용성을 다음의 코호트들에서 평가하고자 한다. 1) 2013년 1월부터 2018년 7월까지 단일 군병원에서 시행 된 결핵검진프로그램에 참여한 코호트 (폐 결핵 검출능 확인), 2) 2008년 1월부터 2012년 12월까지 단일 건강검진 기관에 참여한 코호트 (폐암 검출능 확인), 3) 2004년 1월부터 2018년 6월까지 동일한 건강검진 기관에 참여한 코호트 (CXR-LC의 폐암 예측능 확인). 병변검출 DL 모델의 결핵 및 폐암 검출에 대한 진단능을 area under the receiver operating characteristic curves (AUC), sensitivity, specificity, positive predictive value, negative predictive value, accuracy를 기결정 된 thresholds (폐 결핵: high sensitivity threshold=0.16, high specificity threshold= 0.46; 폐암: high sensitivity threshold=0.16)을 기준으로 계산하고, 영상의학 전문의와 그 결과를 비교하였다. CXR-LC 모델의 폐암 검진 CT 수검자 선택능은 폐암 발생 예측에 대한 구별 (discrimination)과 보정(calibration)을 확인하고, 추가로 2021년 US Preventive Services Task Force (USPSTF) recommendations에 추가적인 이득이 있는지를 lung cancer detection rate, proportion of selected CT screening candidates, positive predictive value를 이용하여 확인하였다.
결과: 총 19,686명의 결핵 검진군의 20,235 흉부 X선 중, 4명의 5장의 흉부 X선이 활동성 결핵으로 확인되었다. 병변 검출 DL 모델은 이에 대해서 high sensitivity, high specificity thresholds 모두에서 폐결핵을 찾아내었다. 이때 각각의 specificities는 95.9% 와 99.7%, PPVs는 0.6% 와 6.8%, NPVs는 모두 100%였다. 특히 high specificity threshold에서 이러한 진단능은 영상의학전문의와 차이가 없었다 (P>0.05). DLAD의 폐암검출의 위한 코호트는 50,070명의 검진군의 100,525 흉부 X선이 포함되었고 그 중 47장에서 폐암이 보였다. 그 중, reader study를 위한 validation set으로 10,202명의 검진군의 10,285장의 흉부 X선이 선별되었고, 그 중 10 장에서 폐암이 보였다. 이 validation set에서 보이는 폐암에 대한 DLAD의 AUC는 0.989로 나타났고, 영상의학전문의와 비슷한 수준의 sensitivity를 보였지만 (P=0.248), 유의하게 낮은 specificity를 보였다 (96.9% vs. 99.8%, P<0.001). 전체 검진군에서는 보이는 폐암에 대해 AUC 0.969을 가졌고, sensitivity는 83%, specificity는 97%를 나타내었다. 폐암 검진 CT 수검자를 위한 코호트는 총 19,488명의 검진군의 19,488장의 흉부 X선이 포함되었고, 그 중 폐암은 107명에게서 발생하였다. CXR-LC 모델은 폐암 발생에 대한 AUC 0.676을 가졌고, 특히 USPSTF-eligible 검진군에게서는 AUC 0.745를 가졌다. 흡연량이 조사 된 17,390명에게서 USPSTF-eligible 검진자에게 추가로 CXR-LC를 적용하여 low-to-indeterminate risk에 해당하는 검진자를 제외하였을 때, proportion of selected CT screening candidates가 45.1%에서 35.8%로 유의하게 감소하였고 (P<0.001), 동시에 lung cancer detection rate(P=0.848)와 positive predictive value(0.416)는 변화가 없었다.
결론: 병변 검출 DL모델은 검진 흉부 X선 검사에서 활동성 결핵과 폐암 검출을 영상의학 전문의 수준으로 할 수 있고, 폐암 발생을 예측하는 CXR-LC 모델은 유의한 정도의 폐암 검진 CT 수검자를 줄이는 동시에 폐암 검출 능은 감소하지 않았다.
Objectives: To validate deep-learning (DL) algorithms for detecting active pulmonary tuberculosis and lung cancers in screening chest radiographs and optimizing candidate selection for lung cancer CT screening (LCS).
Methods: Validation of DL algorithms were performed using chest radiographs from the following cohorts: 1) a cohort undergoing systematic screening for tuberculosis between January 2013 and July 2018, 2) a cohort in a single check-up center between January 2008 and December 2012 (for detecting lung cancers), and 3) a cohort in the same health check-up center between January 2004 and June 2018 (for optimizing selection for lung cancer CT screening candidates). The area under the receiver operating characteristic curves (AUC) for detecting tuberculosis and lung cancers and prediction of lung cancers were measured. For lesion-detection tasks, accuracy measures including sensitivities, specificities, positive predictive values (PPVs), negative predictive values (NPVs) were calculated at pre-defined operating thresholds (for tuberculosis: high sensitivity threshold=0.16, high specificity threshold= 0.46; for lung cancers: high sensitivity threshold=0.16). For identifying LCS candidates, discrimination and calibration of the model for incident lung cancer and its added value to the 2021 US Preventive Services Task Force (USPSTF) recommendations were evaluated in terms of the lung cancer detection rate, the proportion of selected CT screening candidates, and PPV.
Results: In a systematic screening cohort for tuberculosis of 20,235 chest radiographs from 19,686 asymptomatic individuals (21±2 years, 19,475 men), all five radiographs from four individuals with active pulmonary tuberculosis were correctly classified as having abnormal findings by the DL algorithm with specificities of 95.9% and 99.7%, PPVs of 0.6% and 6.8%, and NPVs of both 100% at high sensitivity and specificity thresholds, respectively. With high specificity thresholds, DL algorithm showed comparable diagnostic measures to the pooled radiologists (P-values>0.05). As for lung cancers, in a subset comprising 10,285 chest radiographs from 10,202 individuals (54±11 years, 5,857 men) with 10 radiographs of visible lung cancers, the algorithms AUC was 0.989 (95% confidence interval [CI]: 0.968 – 0.999), and it showed comparable sensitivity (90% [9 of 10]) to the radiologists (60% [6 of 10], P=0.248) with a lower specificity (96.9% [9,956 of 10,275] vs. 99.8% [10,249 of 10,275], P<0.001). In the screening cohort of 100,525 radiographs from 50,070 individuals (53±11 years, 28,090 men) with 47 radiographs of visible lung cancers, the algorithms AUC was 0.969 (95% CI: 0.946 – 0.992), and its sensitivity and specificity were 83% (39 of 47) and 97% (97,479 of 100,478), respectively. For optimization of candidate selection for LCS in the entire population and the subset of USPSTF-eligible individuals, the AUCs were 0.677 (95% CI: 0.623 – 0.731) and 0.745 (95% CI: 0.677 – 0.813), respectively. In individuals with pack-year information (n=17,390), when the model-driven optimization strategy was applied to the USPSTF-eligible population by excluding low-to-indeterminate risk, the proportion of selected CT screening candidates decreased to 35.8% (6,233 of 17,390) from 45.1% (7,835 of 17,390; P<0.001) with 3 missed lung cancers (0.19% [3 of 1,602]). The lung cancer detection rate (0.3% [53 of 17,390]; P=0.848) and PPV (0.9% [53 of 6,233]; P=0.416) remained unaffected.
Conclusion: Deep-learning algorithms can be a promising tool in real-world screening chest radiographs in terms of detecting active pulmonary TB and lung cancers, and optimizing candidate selection for lung cancer CT screening.
Language
eng
URI
https://hdl.handle.net/10371/182988

https://dcollection.snu.ac.kr/common/orgView/000000170132
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share