Publications

Detailed Information

기계 학습 기법을 활용한 고형암 진단 모델 연구 : Diagnostic Classification of Solid Tumor Types Based on XGBoost

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정진우

Advisor
김홍기
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
XGBoost기계 학습암유전체학분류 모델CUP
Description
학위논문(석사) -- 서울대학교대학원 : 치과대학 치의과학과, 2022.2. 김홍기.
Abstract
Introduction: Studies have recently been conducted to analyze genetic data such as gene expression to reveal the mechanisms of diseases. Various types of carcinomas have distinct expression profiles for specific genes, and the difference can be trained by machine learning models and used to classify carcinomas. Recently, advanced learning methods have been developed in the field of medical diagnosis and are used to solve classification problems, but there is still need for improvement in the field of judging carcinomas by studying characteristics from tumor samples. Cancer of unknown primary site (CUP) is a well-known clinical disease that accounts for 3-5% of all malignant epithelial tumors, but is characterized by aggressive disease accompanied by early metastasis. In addition, patients diagnosed with CUP have histologically combined metastases for which the clinician cannot identify the primary site of the tumor. Although the primary site cannot be identified due to clinical or technical insufficiency, tumors in the primary site may regress or remain in a resting state, and malignant metastasis may metastasize to secondary organs early. Therefore, it is particularly important to find the primary site in the clinical stage of cancer treatment. In this study, a machine learning-based carcinoma classification model was developed to more accurately diagnose the primary site by selecting the gene expression profile.

Methods: In this study, data were collected based on the gene expression profile and featured genes were extracted and selected as training data for the machine learning model. The featured genes were selected as a feature of the differential expression gene between each carcinoma group and the normal group. A total of five machine learning techniques, XGBoost, KNN, NB, SVM, and RF, were used to select appropriate techniques among the various machine learning techniques, and ACC, Precision, Recall, F1, and AUC were used as metrics to compare performance between models. In addition, in order to test the overfitting of the generated model, validation was performed using test data not used for training.

Results: As a result of comprehensive evaluation of performance using cross-validation, the XGBoost model showed the most stable and high carcinoma classification performance. The XGBoot classification model showed the most stable performance as a test data by selecting projects conducted with data not used for model training, while SVM, RF based classification models did not show stable performance than KNN, NB based classification models and the overfitting of the model could be suspected. Overall, it can be confirmed that XGBoost is one of powerful algorithm in the classification of cancer diagnosis.
서론: 유전자 발현 정보와 같은 유전체 데이터를 분석하여 질환과 생물체의 기작을 밝히는 연구들이 진행되고 있다. 다양한 암종 유형은 특정 유전제에 대해서 뚜렷한 발현 프로필을 가지며 그 차이는 기계 학습 모델에 의해 학습되어 암종을 분류하는 데 사용할 수 있다. 최근 의료 진단 분야에 고급 학습 방법들이 개발되어 분류 문제를 해결하기 위해 사용되는 추세이나 종양 샘플의 정보들로부터 특징을 연구하여 암종을 판단하는 분야는 아직 향상될 여지가 존재한다. 1차 부위 미상의 암(CUP: Cancer of unknown primary site)은 모든 악성 상피종양의 3-5%를 차지할 정도로 잘 알려진 임상 질환이지만 조기 전이를 동반해 공격적인 질병으로 특징지어진다. 또한, CUP으로 진단된 환자는 임상의가 종양의 1차 부위를 식별할 수 없는 조직학적으로 결합된 전이암을 가지고 있다. 임상적 또는 기술적 부족으로 1차 부위를 식별하지 못하기도 하지만, 1차 부위의 종양이 퇴보하거나 휴식 상태에 머물며 악성 전이가 2차 분위로 조기에 전이되기도 한다. 따라서 암 치료의 임상 단계에서는 1차 부위를 찾는 것이 특히 중요하다. 본 연구에서는 유전자 발현 프로파일을 데이터로 선정하여 1차 부위를 보다 정확하게 진단할 수 있도록 기계 학습 기반의 암종 분류 모델을 개발하였다.

방법: 본 연구에서는 유전자 발현 프로파일을 기반으로 데이터를 수집 및 특징 유전자를 추출하여 기계 학습 모델의 훈련 데이터로 선정하였다. 특징 유전자는 각 암종군과 정상군간의 차등발현유전자를 선별하였다. 다양한 기계 학습 기법 중 적절한 기법을 선택하기 위하여 XGBoost, KNN, NB, SVM, RF 총 5개의 기계 학습 기법들을 사용하였으며, 모델간의 성능을 비교하기 위한 성능지표로 ACC, Precision, Recall, F1, AUC가 사용되었다. 또한, 생성된 모델의 과적합을 최종 테스트하기 위해 학습에 사용되지 않은 테스트 데이터를 이용하여 최종 검증을 실시하였다.

결론: 교차검증을 사용하여 성능을 종합적으로 평가한 결과, XGBoost 모델이 가장 안정적이고 높은 암종 분류 성능을 보였다. 학습에 사용되지 않은 테스트 데이터를 선정하여 테스트 측정 결과로는 XGBoot 분류 모델이 가장 안정적인 성능을 보여주었지만 SVM, RF 분류 모델은 KNN, NB 분류 모델보다 종합적으로 안정적인 성능을 보여주지 못했으며 모델의 과적합을 의심할 수 있었다. 이는 전반적으로 암종 진단 분류에서 XGBoost가 강력한 알고리즘임을 확인할 수 있다
Language
kor
URI
https://hdl.handle.net/10371/183087

https://dcollection.snu.ac.kr/common/orgView/000000169281
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share