Publications

Detailed Information

Identification of Noncoding Disease-specific Risk Variants Using Machine Learning Techniques : 기계학습을 이용한 유전체 noncoding 영역에서 질병소인변이 발견에 관한 연구

DC Field Value Language
dc.contributor.advisorChoi, J.-
dc.contributor.authorAli Yousefian-Jazi-
dc.date.accessioned2020-05-19T07:47:36Z-
dc.date.available2020-05-19T07:47:36Z-
dc.date.issued2020-
dc.identifier.other000000158890-
dc.identifier.urihttps://hdl.handle.net/10371/167570-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000158890ko_KR
dc.description학위논문(박사)--서울대학교 대학원 :공과대학 협동과정 바이오엔지니어링전공,2020. 2. Choi, J..-
dc.description.abstractRecent large-scale genome-wide association studies (GWAS) have identified common genetic variants that may contribute to the risk of different diseases. However, pinpointing the risk variants in noncoding regions and underlying biological mechanisms remains a major challenge. On the other hand, interpretation of noncoding disease variants, which comprise the vast majority of GWAS hits, remains a momentous challenge due to haplotype structure and our limited understanding of the mechanisms and physiological contexts of noncoding elements. Here, I propose two methodologies to unravel functional noncoding variants associated with amyotrophic lateral sclerosis (ALS) and autoimmune diseases. First, I constructed a convolutional neural network (CNN) model with a large-scale ALS GWAS meta-analysis dataset based on their epigenetic features. In addition, I combined the high-density genotyping and epigenomic data using a random forest model to discover the noncoding causal variants by focusing on autoimmune diseases. After filtering and prioritization of candidates, two new risk variants, rs2370964 and rs3093720, on chromosome 3 and 17 were fine-mapped, respectively, for ALS. Further analysis revealed that these polymorphisms were associated with the expression level of CX3CR1 and TNFAIP1. Furthermore, I reached to three single nucleotide polymorphisms (rs1800630, rs1799964 and rs4796793) in the upstream site of TNF and STAT3 genes, two frequent genes shared in several autoimmune diseases, and show how those variants affect on TNF and STAT3 expression levels. The proposed methodologies can be applied for other complex diseases, and my results may provide new insights for ALS, atopic dermatitis and inflammatory bowel disease pathogenesis, as well.-
dc.description.abstract최근 대규모 전장 유전체 상관성 분석 (genome-wide association studies, GWAS) 은 다른 질병의 위험에 관여할 수도 있는 공통 유전 변이의 발견에 이바지하였다. 그러나 비암호화 영역에서 위험 변이체를 찾아내고 그 기저 생물학적 메커니즘을 파악하는 것은 여전히 해결되지 않은 중요한 과제이다. 또한 대다수의 GWAS 시그널을 구성하는 비암호화 질병 변이체의 해석은 하플로타입 (haplotype) 구조와 비암호화 요소의 작용 메커니즘 및 그 생리학적 기능에 대한 부족한 이해로 인해 아직 해결되지 않은 중요한 난관이다. 본 논문에서는 근위축성 측색 경화증 (Amyotrophic Lateral Sclerosis, ALS) 과 자가 면역 질환에 연관된 기능적 비암호화 변이를 분석하기 위해 두 가지 방법론을 제시한다. 첫번째로 후성 유전학적 특성에 기반한 대규모 ALS GWAS 메타 분석 데이터 세트를 해석하는 Convolutional Neural Network (CNN) 모델을 구성하였다. 두번째로 자가 면역 질환에 관련된 비암호화 원인 변이체를 발견하기 위해 고밀도 유전자형 분석과 후성 유전체 데이터를 결합하는 random forest 모델을 사용하였다. 이 방법론을 이용하여 후보 물질을 여과하고 우선 순위를 정한 후, 3번과 17 번 염색체에서 ALS 와 연관된 2 개의 새로운 위험 변이체인 rs2370964와 rs3093720을 발견하였다. 추가 분석을 통해 이 다형성이 CX3CR1, TNFAIP1 의 발현 수준과 관련이 있음을 밝혀냈다. 또한 일부 자가 면역 질환에서 공유되는 두 개의 유전자인 TNF, STAT3 유전자의 상류영역 부위에서 3 개의 단일 염기 다형성 (rs1800630, rs1799964, rs4796793) 을 발견하였으며 이러한 변이가 TNF, STAT3 발현 수준에 어떻게 영향을 미치는 가를 보였다. 본 논문에서 제안된 방법론은 다른 복잡한 질환에도 적용될 수 있으며 본 논문에서 발견된 결과는 ALS, 아토피성 피부염 및 염증성 장질환의 발병 기전에 새로운 측면을 더할 수 있으리라 판단한다.-
dc.description.tableofcontentsChapter 1. Introduction 1

Chapter 2. Functional fine mapping of noncoding risk variants in ALS using CNN 4
2.1 Genetics of Amyotrophic Lateral Sclerosis 5
2.2 Methodology 7
2.2.1 Overview of research methodology 7
2.2.2 Feature set construction 9
2.2.3 Model design and training 10
2.2.4 Feature importance analysis 15
2.3 Results 18
2.3.1 GWAS data 18
2.3.2 Biological characterization of noncoding risk variants 18
2.3.3 Filtering and prioritizing of risk variants and genes 24
2.3.4 Functional assessment of noncoding risk variants and genes associated with ALS 28
2.4 Discussion 39

Chapter 3. Functional annotation of noncoding causal variants in autoimmune diseases 41
3.1 Genetics of Autoimmune diseases 42
3.2 Methodology 44
3.2.1 Research flowchart 44
3.2.2 Construction of disease and control variant sets 46
3.2.3 Model design and training 49
3.3 Results 51
3.3.1 GWAS data 51
3.3.2 Biological validation of prediction results 51
3.3.3 Filtering pipeline 54
3.4 Discussion 66

Chapter 4. Discussion 67

Chapter 5. Conclusion 69

Bibliography 70
Abstract in Korean 100
Acknowledgements 101
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc660.6-
dc.titleIdentification of Noncoding Disease-specific Risk Variants Using Machine Learning Techniques-
dc.title.alternative기계학습을 이용한 유전체 noncoding 영역에서 질병소인변이 발견에 관한 연구-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthor유세피안-
dc.contributor.department공과대학 협동과정 바이오엔지니어링전공-
dc.description.degreeDoctor-
dc.date.awarded2020-02-
dc.identifier.uciI804:11032-000000158890-
dc.identifier.holdings000000000042▲000000000044▲000000158890▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share