Publications

Detailed Information

Deep learning-based survival prediction using DNA methylation-derived 3D genomic information : DNA 메틸화 데이터로부터 추출한 3차원 유전체 정보를 활용한 딥 러닝 모델 기반 생존 예측

DC Field Value Language
dc.contributor.advisor김선-
dc.contributor.author양지원-
dc.date.accessioned2023-11-20T04:26:33Z-
dc.date.available2023-11-20T04:26:33Z-
dc.date.issued2023-
dc.identifier.other000000177519-
dc.identifier.urihttps://hdl.handle.net/10371/196566-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000177519ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 인공지능전공, 2023. 8. 김선.-
dc.description.abstractThe development of cancer is strongly linked to the three-dimensional (3D) genome structure. However, the valuable information related to the 3D genome states has not been effectively used in clinical applications, to the best of my knowledge. The main reason for this is the expensive production of Hi-C data, the manifest source of 3D genome information. Therefore, there is a requirement for a new measurement that can be derived from 3D genome-related data, making it more readily available for the 3D genome information to be clinically used.
In this study, I present a novel approach for extracting 3D genome-aware epigenetic features, the epigenetic features that are reflective of the three-dimensional (3D) genome structure, from DNA methylation data. Additionally, I conducted a deep learning-based survival analysis utilizing these features. To generate the 3D genome-aware epigenetic features, the 3D genome structures were reconstructed using the 450K DNA methylation data at an individual level. The results demonstrate that utilizing these features significantly improves the accuracy of risk prediction for seven cancer types. This suggests that the 3D genome information embedded in the 3D genome-aware epigenetic features is highly valuable for predicting the survival, or cancer prognosis.
Furthermore, an in-depth biological analysis revealed that altered DNA methylation levels in risk-high group as defined by the deep learning model are associated with the aberrant activation of genes involved in various cancer-related pathways. Overall, the usage of 3D genome-aware epigenetic features as survival predictors demonstrates their significant clinical importance in seven types of cancer, in addition to their biological significance. All source codes are available on the GitHub repository (https://github.com/jwyang21/3D-genome-risk-prediction).
-
dc.description.abstract암의 발생은 3차원 유전체 구조와 밀접하게 관련 있다. 하지만, 3차원 유전체 구조에 대한 정보는 지금까지 임상적으로 활용되고 있지 않다. 이에 대한 주요한 이유는 3차원 유전체 정보를 가장 직관적으로 제공하는 Hi-C (High-throughput Chromosome Conformation Capture; 고 처리량 염색체 형태 캡처) 데이터의 생산 비용이 매우 높기 때문이다. 따라서, 3차원 유전체 정보를 사용한 새로운 임상적인 척도를 개발한다면, 해당 정보의 임상적 활용 가능성을 높일 수 있다.
본 연구에서는 DNA 메틸화 데이터로부터 3차원 유전체 정보가 내재되어 있는 후성유전적 특징 벡터들을 추출하고, 이를 딥 러닝 기반 생존분석에 활용하는 새로운 방법을 제시한다. 3차원 유전체 정보가 내재되어 있는 후성유전적 특징 벡터들을 추출하기 위해, 개개인의 450K DNA 메틸화 데이터로부터 재구축한 3차원 유전체 구조를 활용한다.
실험 결과, 해당 특징 벡터들을 활용한 경우들이 그렇지 않은 경우들에 비해 다양한 암종에서 생존 예측의 정확도가 더 높았다. 이는 후성유전적 특징 벡터들에 내재되어 있는 3차원 구조에 대한 정보가 암 환자들의 생존 및 예후 예측에 있어서 중요한 예측인자로 작용할 수 있음을 시사한다. 또한 생물학적 분석을 통해, 딥 러닝 모델에 의해 고위험군으로 분류된 환자들에게서 관찰된 DNA 메틸화 수준의 변화가 다양한 암 관련된 패스웨이들의 비정상적인 활성화와 관련 있음이 밝혀졌다. 이를 통해 3차원 정보가 내재되어 있는 후성유전적 특징 벡터들이 임상적으로 중요할 뿐만 아니라 생물학적으로도 의미가 있음을 알 수 있다. 실험에 사용된 코드는 https://github.com/jwyang21/3D-genome-risk-prediction 에서 확인 가능하다.
-
dc.description.tableofcontentsChapter 1. Introduction 1
1.1 Background 1
1.2 Motivation 2

Chapter 2. Task design and Approach 5
2.1 Underlying concepts 5
2.2 Task definition 6

Chapter 3. Materials and Methods 11
3.1 Deriving 3D genome-aware epigenetic features in an individual-level 11
3.2 Construction of BDM 12
3.3 Investigating the characteristics of BDM 13
3.4 Devising a prognostic score from the BDM PC1s 13
3.5 Extracting 3D genome-aware epigenetic features from BDM 14
3.6 Figuring out the optimal stem closeness of each cohort 16
3.6.1 Parameters 16
3.6.2 Selecting single optimal score per cohort 18
3.7 Hi-C data processing 19
3.8 Risk prediction using a feedforward neural network and 3D genome-aware epigenetic features 21
3.9 Survival analyses based on predicted risk 22
3.10 Functional analyses 23
3.10.1 Functional annotation on DMR genes 23
3.10.2 Analysis on the chromatin states in DMR 23
3.11 Data description 24

Chapter 4. Results and Discussion 27
4.1 Significant characteristics of BDM PC1 27
4.1.1 BDM PC1s can approximate Hi-C PC1s 27
4.1.2 BDMs and BDM PC1s capture innate differences between tumor and normal groups 31
4.1.3 BDM PC1s are tissue type-specific 33
4.2 Utilizing 3D genome-aware epigenetic features helps survival prediction 35
4.2.1 The model shows robust performance on external datasets 39
4.3 Functional annotation on genes in DMR 42
4.4 Inactive chromatin states dominate in DMRs 43
4.5 Limitation 48


Chapter 5. Conclusion 49
국문초록 59
-
dc.format.extentxi, 59-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject딥 러닝-
dc.subject생물정보학-
dc.subjectDNA 메틸화-
dc.subject암 예후 예측-
dc.subject3차원 유전체-
dc.subject후성유전학-
dc.subject생존 분석-
dc.subject.ddc006.3-
dc.titleDeep learning-based survival prediction using DNA methylation-derived 3D genomic information-
dc.title.alternativeDNA 메틸화 데이터로부터 추출한 3차원 유전체 정보를 활용한 딥 러닝 모델 기반 생존 예측-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorJeewon Yang-
dc.contributor.department공과대학 협동과정 인공지능전공-
dc.description.degree석사-
dc.date.awarded2023-08-
dc.identifier.uciI804:11032-000000177519-
dc.identifier.holdings000000000050▲000000000058▲000000177519▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share