Publications

Detailed Information

Informatics techniques for associating key genes and phenotypes by network-based integration of multi-omics data : 멀티오믹스 데이터의 통합 분석을 위한 네트워크 기반의 주요 유전자와 표현형을 연결하기 위한 정보학 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이채진

Advisor
김선
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
multi-omics datanetwork analysisintegration analysisPPI networkmiRNA networkTF networkmethylation network
Description
학위논문(박사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 김선.
Abstract
특정 유전자의 특징을 알기 위해서 대상 유전자의 증폭 및 녹아웃 실험을 통해 표현형을 살펴보는 연구가 많이 수행되고 있다. 이러한 생물학 실험과 더불어 만들어지는 다양한 오믹스 데이터를 통합 분석하여 표현형을 나타내는 것은 여러 가지 어려운 문제가 있다. 오믹스 데이터들은 다른 형식을 사용하기 때문에 통합하는 것이 어려운 문제이며 오믹스 간의 복잡 관계를 고려해야 한다. 또한, 통합한 오믹스 데이터는 고차원의 자료이기 때문에 분석과 해석 또한 어렵다. 성격이 다른 데이터를 연계하고 분석에 쉬운 특징 공간으로 줄이는 문제를 해결하기 위해서 네트워크 정보를 사용하는 것은 매우 유용하다. 본 박사 연구에서는 네트워크 정보를 사용한 다중 오믹스 데이터 통합 분석의 세 가지 연구를 수행하였고 다중 오믹스 통합 분석의 어려운 문제의 해결은 네트워크를 이용한 분석이 매우 유용함을 보였다.

첫 번째 연구에서는, 녹아웃 유전자 EWS에 의해 발현되는 유전적 현상을 설명하기 위하여 야생형 쥐와 EWS 녹아웃 쥐의 척수로부터 얻어진 miRNA 데이터와 mRNA 데이터를 통합하여 분석하였다. miRNA에 의해 조절 받은 DEG의 기능적 변화를 조사하기 위해 miRNA와 표적 유전자 간의 음의 상관 네트워크와 단백질-단백질 (PPI) 네트워크를 사용했다. miRNA와 PPI 네트워크를 이용한 분석을 통해, 콜린성 시냅스 경로에서 유의미하게 하향 조절된 Gnai1을 찾아냈다. Gnai1의 발현량은 억제된 EWS에 의해 발현량이 증가한 mmu-miR-381 및 mmu-miR-181a/b/c에 의해 발현이 억제되는 것을 miRNA 네트워크를 이용하여 찾아 확인하였다. 또한, 단백질 네트워크를 이용하여 발현량이 증가한 Rgs1 및 Rgs19에 의해서 Gnai1이 억제되는 것을 보았으며, G 단백질 복합체를 이루는 이웃 단백질 Gnb1, Gnb2 및 Gnb4의 발현 수준도 감소한 것을 함께 확인하여 유의미한 발견임을 보였다.

두 번째 연구에서는, 전체 암 규모에서 DNA 메틸화에 필요한 7개의 유전자의 효과를 분석하고자 했다. TCGA의 12종의 암 데이터에서 유전자 발현 데이터와 메틸화 데이터를 갖는 3865개의 표본을 수집하여 분석하였다. 각 암종에서 해당 유전자의 돌연변이 유무로 표본을 나누고 서브 네트워크 클러스터링 방법을 이용하여 생물학적 의미가 있는 유전자 그룹으로 나누어 메틸화 영향을 분석하여 의미 있는 유전자를 찾고자 했다. 분석으로 찾아낸 클러스터 중에서 급성골수성백혈병 환자에서 하이포 메틸화된 프로모터를 가지는 유전자군과 대장암 환자에서 과 메틸화된 프로모터를 가지는 유전자군을 선택하여 심화 분석하였다. TF에 의한 영향과는 무관하고 메틸화에 의한 영향으로 발현량이 변화한 유전자를 선별하였고, 급성골수성백혈병 환자의 42개의 유전자와 대장암 환자의 61개의 유전자를 유의미한 것으로 찾아내었다. 선별한 유전자 일부는 이전의 다른 실험 논문에서 보고된 것을 확인하여 유의미한 것을 검증하였다.

세 번째 연구에서는 생물학적 데이터를 통합 분석하여 질병에 대한 특정 유전자의 관련성을 신속하게 확인할 수 있는 컴퓨터 실험 시스템을 개발했다. 이 분석 실험 도구는 miRNA, PPI 및 TF 3가지 네트워크 정보를 데이터베이스로 구축하여 네트워크상에서 시뮬레이션 분석이 가능하도록 하였고, 주어진 유전자 또는 가설을 유전자 세트로 변환하기 위해 문헌 기반 검색 엔진을 이용하여 만들었다. 확인 분석된 네트워크 결과는 유전자 발현 수준을 고려하였고 네트워크의 정보 엔트로피값을 계산하여 분석 결과를 평가하였다. 많은 네트워크 정보를 가진 결과는 가설 검증에서 높은 점수를 가지도록 하였다. 구축한 시스템은 E2f1 유전자의 데이터와 Lrrk2, Dicer1 각각의 유전자 데이터를 사용하여 검증하였다. MalaCards의 인간 질병 데이터베이스를 이용하여 E2f1 관련된 14개의 질병과 유전자의 연관성을 검증하였고, 11개의 질병은 높은 연관성을 보였고, 그 외의 무관한 48개의 질병에 대해서는 낮은 연관성을 가지는 것을 보임으로써 검증하였다.

요약하자면, 필자의 박사 연구는 유전자와 표현형에 대한 연관성을 분석하기 위해 다중 오믹스 데이터의 통합하여 분석하였고, 통합 분석의 어려운 문제를 네트워크 정보를 사용하여 유의미한 결과를 보였다. 다중 오믹스 데이터의 성격에 따라 PPI, miRNA, TF 네트워크 및 DNA 메틸화 정보 네트워크를 결합하는 방법을 사용하였고 생물학적으로 유의미한 분석 결과를 보여 네트워크를 이용한 분석이 유용함을 보였다. 또한, 네트워크를 이용한 다중 오믹스 데이터 분석 실험 도구를 개발하여 생물정보학 연구에 기여 하고자 하였다.
For the functional study of a gene, amplification or knock-out of a gene in the animal model is frequently performed. Experiments of this type are effective in associating a gene to a phenotype. To investigate further, measuring multi-omics data is a common practice. Analyzing such multi-omics data would explain how the gene of interest affects other genes, including regulatory mechanisms such as transcription factors, miRNA and epigenetic changes. However, analyzing multi-omics data is challenging since the integrated analysis of multi-omics data requires analyzing complex associations among genetic and epigenetic entities. To handle such a complex relationship, networks are the most effective tools. Thus, in my doctoral study, I developed network-based informatics techniques for associating key genes and phenotypes by analyzing multi-omics data.

In my first study, I investigated the genetic phenomenon caused by the knock-out gene EWS. MicroRNA data and mRNA expression data from the spinal cord of wildtype and EWS knock-out mice were analyzed and integrated. I used a negative-correlation network of miRNAs and target genes, and protein-protein interaction (PPI) network to investigate functional changes of DEGs. From the network analysis, I identified significantly down-regulated Gnai1 in the cholinergic synapse pathway. Gnai1 was suppressed by mmu-miR-381 and mmu-miR-181a/b/c, and inhibited by Rgs1 and Rgs19 in the spinal cord of EWS KO mice. In addition, the expression levels of Gnb1, Gnb2, and Gnb4, that are forming a G-protein complex with Gnai1 gene, were reduced.

In my second study, I investigated the effect of mutations in seven DNA methylation modifier genes on gene expression profiles on the genome scale in cancer. Pan-cancer data were collected from TCGA, and 3865 samples having both transcriptome and methylome data were analyzed. In each carcinoma, samples were divided into two sample groups, one with mutations and the other without mutations in the seven DNA methylation modifier genes. First, genome-wide promoter methylation landscapes were significantly different between the two groups and differentially methylated regions (DMR) were identified. To investigate how DMRs affected genome-wide gene expression profiles, I first selected differentially expressed genes (DEG) between the two groups of samples. Then, DEGs were mapped to PPI and clusters of DEGs were computed to select gene sets in terms of biological functions. To associate DEG and DMR, I selected two cancers, AML and COAD, since the two cancers were most different in terms of mutation profiles of seven methylation modifier genes and methylation landscapes. Up-regulation of genes with hypomethylated promoter regions in AML and down-regulated genes with hypermethylated promoter regions in COAD was selected by graph-based sub-network clustering methods. To rule out expression changes of genes by a transcription factor (TF), I used the Transfac database to scan TF binding sites in the promoter regions, which compiled a list of TFs. If a TF that could bind to the promoter region of a gene that was expressed significantly different between the two sample groups, the gene was removed for further consideration to rule out the effect of TF. As a result, 42 up-regulated DEGs with hypomethylated promoter DMR in AML and 61 down-regulated DEGs with hypermethylated promoter DMR were identified. Many of these genes are known to be associated with either AML or COAD in the literature.

In the third study, I developed a computerized or in silico experimental system that can quickly test the relevance of a KO gene to disease using omics data. MicroRNA, PPI and TF network information were deployed for the in silico testing. To transform a hypothesis to be tested into a target gene set, a literature-based search engine was used and the analysis results were evaluated by calculating the entropy of the number of target genes connected through the networks induced by the condition-specific gene expression levels. The in silico system was tested using E2f1 knock-out data. 11 out of 14 E2f1-related diseases showed to be highly associated with E2f1 while diseases that were not known to be related E2f1 failed in the in silico testing. Although networks are effective tools for modeling complex interactions among biological entities, use of biological networks for analyzing multi-omics data is not straightforward.

My doctoral study was to combine networks of PPI, miRNA, TF networks, and DNA methylation information to perform the integrated analysis of multi-omics data for mining new biological knowledge. In silico experiment tools using the integrated networks were developed for scientists to perform follow-up experiments.
Language
eng
URI
https://hdl.handle.net/10371/162450

http://dcollection.snu.ac.kr/common/orgView/000000157107
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share