Browse

Informatics systems using network approaches to prioritize genes in RNA-Seq data
RNA-Seq 데이터에서 유전자의 랭킹을 책정하기 위한 네트워크 접근법을 사용한 정보 과학 시스템

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
Benjamin Hur
Advisor
김선
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
RNA-seqGene prioritizationInformatics systemNetwork-based approach
Description
학위논문(박사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 김선.
Abstract
RNA-seq 기술은 게놈 규모의 전사체를 고해상도로 분석 가능하게 만들었으나, 일반적으로 전사체 데이터에서 나타나는 유전자의 수는 많기 때문에 추가 분석 없이 연구 목표와 관련된 유전자를 식별하기가 어렵다. 따라서 전사체 데이터 분석은 종종 생물 네트워크, 유전자 정보 데이터베이스, 문헌 정보 같이 서로 다른 자원을 활용하여 분석하게 된다. 그러나 자원들 간의 관계는 이질적인 부분이 존재하여 서로 직접적으로 연결하여 해석하기 어려우며 어떠한 유전자가 실험 목표와 관련이 있는지를 구체적으로 이해하기 힘들다.
따라서 특정 연구 목표와 관련 있는 핵심 유전자를 효과적으로 결정하고 설명하기 위해서는 이러한 이질적인 자원을 효과적으로 통합할 강력한 전산 기법이 필요하다.
본 논문에서는 네트워크 기반 접근법을 사용하여 전사체 데이터를 분석하고 실험 목표와 관련 있는 유전자를 찾기 위한 세 가지 생물 정보 시스템을 개발했다.

첫 번째 연구는 RNA-Seq 데이터의 특성을 활용하여 샘플 수가 적은 유전자 녹아웃 (KO) 마우스 실험에서 중요한 유전자를 찾기 위한 정보학 시스템을 개발하였다. 이 시스템은 유전자 조절 네트워크 (GRN)와 패스웨이 정보를 사용하여 유의함이 적은 Differentially Expressed Gene (DEG)를 제거하고 단일 염기 변이 (SNV) 정보를 사용하여 샘플 간 유전적 차이로 인해 다를 수 있는 유전자를 제거한다. 이 연구는 네트워크와 SNV 정보의 통합을 통해서 후보 유전자의 수를 유의미하게 줄일 수 있음을 보여주었다.

두 번째 연구는 사용자의 실험 목표를 반영할 수 있는 유전자 랭킹 시스템인 CLIP-GENE을 개발하였다. CLIP-GENE은 쥐의 전사인자 KO 실험에서 유전자를 랭킹하기 위한 통합 분석 웹 서비스이다. CLIP-GENE은 후보 유전자에 랭킹을 부여하기 위해 GRN, SNV 정보를 이용하여 샘플 개체 간의 차이가 있고 덜 유의미한 후보 유전자를 제거하고 텍스트 마이닝 기술과 단백질-단백질 상호작용 네트워크 정보를 이용하여 사용자의 실험 목표와 관련된 유전자를 랭킹한다.

마지막 연구는 벤 다이어그램을 사용하여 다수의 RNA-Seq 실험을 비교분석 할수 있는 정보 시스템을 개발하였다. RNA-Seq 실험은 일반적으로 비교 및 대조군의 샘플을 비교하여 DEG를 생성하고 벤 다이어그램을 통하여 샘플 간의 차이를 분석한다. 그러나 벤 다이어그램 상에서의 각 영역은 다양한 비율의 DEG를 포함하고 있으며, 특정 영역의 DEG는 서로 다른 비교군(혹은 대조군)에 의한 DEG이기에 단순히 유전자 목록 간의 차이를 비교하는 것은 적절하지 못하다.
이러한 문제를 해결하기 위해 벤 다이어그램과 네트워크 전파(Network Propagation)를 사용한 통합 분석 프레임워크인 Venn-diaNet이 개발했다. Venn-diaNet은 다수의 DEG 목록이 있는 실험의 유전자를 랭킹할 수 있는 정보 시스템이다. 우리는 Venn-diaNet이 서로 다른 조건에서 생물학적 실험을 비교함으로써 원본 논문에 보고된 연구 결과를 재현 할 수 있음을 보여주었다.

정리하면 이 논문은 전사체 데이터로부터 유전자를 랭킹할 수있는 정보 시스템을 개발하기 위해 네트워크 기반 분석법을 다양한 자원들과 결합하였으며, 다른 연구자의 편리한 사용 경험을 위해 친화적인 UI를 가진 웹도구 또는 소프트웨어 패키지로 제작 및 배포하였다.
Transcriptomic analysis, the measurement of transcripts on the genome scale, is now routinely performed in high resolution. Since the number of genes obtained in the transcriptome data is usually large, it is difficult for researchers to identify genes that are relevant to their research goals, without additional analysis. Analysis of transcriptome data is often performed utilizing heterogeneous resources such as biological networks, annotated gene information, and published literature. However, the relationship among heterogeneous resources is often too complicated to decipher which genes are relevant to the experimental design. Therefore, powerful computational methods should be coupled with these heterogeneous resources in order to effectively determine and illustrate key genes that are relevant to specific research goals. In my doctoral study, I have developed three bioinformatics systems that use network approaches to analyze transcriptome data and rank genes that are relevant to the experimental design.

The first study was conducted to develop a bioinformatics system that could be used to analyze RNA-Seq data of gene knockout (KO) mice, where the sample number is small. In this case, the main objectives were to investigate how the KO gene affects the expression of other genes and identify the key genes that contribute significantly to the phenotypic difference. To address these questions, I developed a gene prioritization system that utilizes the characteristics of RNA-Seq data. The system prioritizes genes by removing the less informative differentially expressed genes (DEGs) using gene regulatory network (GRN) and biological pathways. Next, it filters out genes that might be different due to genetic differences between samples using single nucleotide variant (SNV) information. Consequently, this study demonstrated that the integration of networks and SNV information was able to increase the performance of gene prioritization.

The second study was conducted to develop a gene prioritization system that allows the user to specify the context of the experiment. This study was inspired by the fact that the currently available analysis methods for transcriptome data do not fully consider the experimental design of gene KO studies. Therefore, I envisaged that users would prefer an analysis method that took into consideration the characteristics of the KO experiments and could be guided by the context of the researcher who has designed and performed the biological experiment. Therefore, I developed CLIP-GENE, a web service of the condition-specific context-laid integrative analysis for prioritizing genes in mouse TF KO experiments. CLIP-GENE prioritizes genes of KO experiments by removing the less informative DEGs using GRN, discards genes that might have sample variance, using SNV information, and ranks genes that are related to the user's context using the text-mining technique, as well as considering the shortest path of protein-protein interaction (PPI) from the KO gene to the target genes.

The last study was conducted to develop an informative system that could be used to compare multiple RNA-Seq experiments using Venn diagrams. In general, RNA-Seq experiments are performed to compare samples between control and treated groups, producing a set of DEGs. Each region in a Venn diagram (a subset of DEGs) generally contains a large number of genes that could complicate the determination of the important and relevant genes. Moreover, simply comparing the list of DEGs from different experiments could be misleading because some of the DEG lists may have been measured using different controls. To address these issues, Venn-diaNet was developed, an analysis framework that integrates Venn diagram and network propagation to prioritize genes for experiments that have multiple DEG lists. We demonstrated that Venn-diaNet was able to reproduce research findings reported in the original papers by comparing two, three, and eight biological experiments measured in different conditions. I believe that Venn-diaNet can be very useful for researchers to determine genes for their follow-up studies.

In summary, my doctoral study aimed to develop computational tools that can prioritize genes from transcriptome data. To achieve this goal, I combined network approaches with multiple heterogeneous resources in a single computational environment. All three informatics systems are deployed as software packages or web tools to support convenient access to researchers, eliminating the need for installation or learning any additional software packages.
Language
eng
URI
https://hdl.handle.net/10371/162448

http://dcollection.snu.ac.kr/common/orgView/000000157730
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Program in Bioinformatics (협동과정-생물정보학전공)Theses (Ph.D. / Sc.D._협동과정-생물정보학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse