Publications

Detailed Information

Identification of Noncoding Disease-specific Risk Variants Using Machine Learning Techniques : 기계학습을 이용한 유전체 noncoding 영역에서 질병소인변이 발견에 관한 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Ali Yousefian-Jazi

Advisor
Choi, J.
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(박사)--서울대학교 대학원 :공과대학 협동과정 바이오엔지니어링전공,2020. 2. Choi, J..
Abstract
Recent large-scale genome-wide association studies (GWAS) have identified common genetic variants that may contribute to the risk of different diseases. However, pinpointing the risk variants in noncoding regions and underlying biological mechanisms remains a major challenge. On the other hand, interpretation of noncoding disease variants, which comprise the vast majority of GWAS hits, remains a momentous challenge due to haplotype structure and our limited understanding of the mechanisms and physiological contexts of noncoding elements. Here, I propose two methodologies to unravel functional noncoding variants associated with amyotrophic lateral sclerosis (ALS) and autoimmune diseases. First, I constructed a convolutional neural network (CNN) model with a large-scale ALS GWAS meta-analysis dataset based on their epigenetic features. In addition, I combined the high-density genotyping and epigenomic data using a random forest model to discover the noncoding causal variants by focusing on autoimmune diseases. After filtering and prioritization of candidates, two new risk variants, rs2370964 and rs3093720, on chromosome 3 and 17 were fine-mapped, respectively, for ALS. Further analysis revealed that these polymorphisms were associated with the expression level of CX3CR1 and TNFAIP1. Furthermore, I reached to three single nucleotide polymorphisms (rs1800630, rs1799964 and rs4796793) in the upstream site of TNF and STAT3 genes, two frequent genes shared in several autoimmune diseases, and show how those variants affect on TNF and STAT3 expression levels. The proposed methodologies can be applied for other complex diseases, and my results may provide new insights for ALS, atopic dermatitis and inflammatory bowel disease pathogenesis, as well.
최근 대규모 전장 유전체 상관성 분석 (genome-wide association studies, GWAS) 은 다른 질병의 위험에 관여할 수도 있는 공통 유전 변이의 발견에 이바지하였다. 그러나 비암호화 영역에서 위험 변이체를 찾아내고 그 기저 생물학적 메커니즘을 파악하는 것은 여전히 해결되지 않은 중요한 과제이다. 또한 대다수의 GWAS 시그널을 구성하는 비암호화 질병 변이체의 해석은 하플로타입 (haplotype) 구조와 비암호화 요소의 작용 메커니즘 및 그 생리학적 기능에 대한 부족한 이해로 인해 아직 해결되지 않은 중요한 난관이다. 본 논문에서는 근위축성 측색 경화증 (Amyotrophic Lateral Sclerosis, ALS) 과 자가 면역 질환에 연관된 기능적 비암호화 변이를 분석하기 위해 두 가지 방법론을 제시한다. 첫번째로 후성 유전학적 특성에 기반한 대규모 ALS GWAS 메타 분석 데이터 세트를 해석하는 Convolutional Neural Network (CNN) 모델을 구성하였다. 두번째로 자가 면역 질환에 관련된 비암호화 원인 변이체를 발견하기 위해 고밀도 유전자형 분석과 후성 유전체 데이터를 결합하는 random forest 모델을 사용하였다. 이 방법론을 이용하여 후보 물질을 여과하고 우선 순위를 정한 후, 3번과 17 번 염색체에서 ALS 와 연관된 2 개의 새로운 위험 변이체인 rs2370964와 rs3093720을 발견하였다. 추가 분석을 통해 이 다형성이 CX3CR1, TNFAIP1 의 발현 수준과 관련이 있음을 밝혀냈다. 또한 일부 자가 면역 질환에서 공유되는 두 개의 유전자인 TNF, STAT3 유전자의 상류영역 부위에서 3 개의 단일 염기 다형성 (rs1800630, rs1799964, rs4796793) 을 발견하였으며 이러한 변이가 TNF, STAT3 발현 수준에 어떻게 영향을 미치는 가를 보였다. 본 논문에서 제안된 방법론은 다른 복잡한 질환에도 적용될 수 있으며 본 논문에서 발견된 결과는 ALS, 아토피성 피부염 및 염증성 장질환의 발병 기전에 새로운 측면을 더할 수 있으리라 판단한다.
Language
eng
URI
https://hdl.handle.net/10371/167570

http://dcollection.snu.ac.kr/common/orgView/000000158890
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share