Publications

Detailed Information

Informatics techniques to navigate transcriptome space with biological networks from gene to pathway to phenotypes : 생물학적 네트워크를 이용하여 유전자로부터 패스웨이, 표현형까지의 전사체 공간을 탐색하는 정보학 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

문지환

Advisor
김선
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
protein-protein interactionshortest pathnetwork propagationdifferentially expressed genexenotransplantationchronic phase islet graft loss
Description
학위논문(박사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 김선.
Abstract
Transcriptome data, genome-wide measurement of transcripts, has been used to increase our understandings of biological processes at transcription level significantly. Analysis of transcriptome data involves a series of steps from identification of differentially expressed genes (DEGs) to pathway enrichment analysis to association with phenotypes. There exist several hurdles at each step that need to be addressed with state of the art bioinformatics techniques. For example, the complex nature of living organisms can be represented as a network where the nodes are the interacting entities such as genes or pathways and the edges are the interactions between the nodes. Network analysis is crucial in that it can reveal the hidden associations between transcriptome data and phenotypes. In addition, network propagation has emerged as a technique to measure the influential power of nodes in a network. Network propagation has demonstrated its utility on biological context by many studies and has been contributing to invaluable discoveries in biological and medical science fields. In my doctoral study, I explored and analyzed trasncriptome at various levels using
machine learning, network information and network propagation techniques.
My thesis consists of three studies. The first study was to develop an accurate and stable method for determining differentially expressed genes using machine learning techniques. The second study was to develop a novel method to investigate interactions among biological pathways using explicit gene expression
information from RNA-seq. The last study was to perform analysis of xenotransplant transcriptome data using various methods including the network propagation technique.
In the first study, MLDEG, a machine learning approach to identify DEGs using network property and network propagation, was developed. Currently available DEG detection methods have widely been used and contributed to new biological discoveries. Most of the methods use their own models to define DEGs. However, because the traits of transcriptome data vary significantly depending on the experimental designs and sequencing technologies, a single model can hardly fit all transcriptome data of different traits. In addition, setting cutoff values of p-values and fold change is arbitrary. Thus, the results yielded by the methods are often inconsistent and heterogeneous. MLDEG addresses these issues by building a model that uses network information and network propagation results as features. The goal of MLDEG is to train a model by using network-based features extracted from more likely true and false DEGs and use the model to classify DEGs from the genes that cannot be clearly defined as DEGs by existing methods. Tested on 10 high-throughput RNA-seq data, MLDEG showed better performances than the competing methods.
In the second study, I developed a Pathway INTeraction network construction method (PINTnet) that can construct a condition-specific pathway interaction network by computing shortest paths on protein-protein interaction (PPI) networks. Because pathways usually function in a coordinated and cooperative fashion, understanding interactions, or crosstalks, between pathways becomes as important as identifying perturbed single pathway. However, existing methods do not take into account the topological features, treating the pathways just as a set of genes. To solve the problem, PINTnet computes shortest paths on PPI networks mapped to each pair of pathways and creates subnetworks using the shortest paths. It then measures the activation status of pathway interaction using the product of closeness centrality and explicit gene expression quantity. The performance of PINTnet was evaluated using three high-throughput RNAseq
data and successfully reproduced the findings in the original papers of the data.
In the last study, I participated in a xenotransplantation study to elucidate the cause of chronic phase islet graft loss. Clinical islet transplantation is one of the promising options for type 1 diabetes but long-term outcome of graft function is not yet satisfactory. To reveal the mechanism of the graft loss in chronic phase, I carried out pathway interaction network analysis using PINTnet on a time-series porcine islet-transplanted rhesus monkey RNA-seq data and identified the activation of T cell receptor signaling pathway. The analysis results were supported by the biopsy result of liver sample that CD3+ T cell heavily infiltrated the porcine islet. Additionally, I carried out gene prioritization using network propagation to verify five graft loss-relevant scenarios. The result suggested that T cell-mediated long-term graft loss was the most probable scenario. In summary, my doctoral study used network information, network property, and network propagation to identify DEGs and predict pathway interactions. In addition, I participated in a xenotransplantation research and carried out pathway interaction network analysis and network propagation to reveal the possible cause of chronic phase islet graft loss. Utilizing network information and network propagation was very effective to discover the relationships among biological entities and analyze the complex phenotypes.
전사 과정에서의 생물학적 프로세스에 대한 이해를 높이는 데 사용되는 전사체 데이터의 분석은 차별 발현 유전자를 찾아내는 것에서부터 표현형에 연관된 패스 웨이 증폭 분석까지의 일련의 단계를 포함한다. 각 단계마다, 넘어야 할 장애물들이 존재하며 이를 극복하기 위한 새로운 생물정보학 기술의 개발은 필수적이다. 예를 들어, 생명체의 복잡한 특성은 유전자 또는 패스웨이가 노드, 그 개체 사이의 상호 작용이 엣지인 네트워크로 나타낼 수 있다. 이 때, 네트워크 분석 기법은 전사체
데이터와 표현형 간의 숨겨진 연관성을 찾는 데 중요한 역할을 할 수 있다. 한 편, 네트워크 전파는 네트워크에서 노드의 영향력을 측정하는 기술로 주목받고 있으며 새로운 생물학적 발견에 기여하는 등, 생물학 및 의학 분야의 많은 연구에서 그 유용성을 입증하였다. 본 논문에서는 이러한 기계 학습, 네트워크 정보 및 네트워크 전파를 이용한 전사체 데이터 분석에 관한 연구에 대해 다룬다.
첫 번째 연구에서는, 네트워크 정보와 네트워크 전파를 이용하여 차별 발현 유전자를 식별하는 기계 학습 접근법(MLDEG)에 관한 연구를 다룬다. 차별 발현 유전자 분석은 생물학 연구에서 새로운 생물학적 지식의 발견에 중요한 역할을 하고 있으나 이를 위한 기존의 분석 도구들이 도출하는 결과는 각기 다르다. 본 연구에서는 네트워크 정보 및 네트워크 전파 결과를 활용하는 모델을 구축하여 이러한 문제를 해결하였다. 본 연구의 목표는 차별 발현 유전자 및 비차별 발현 유전자로서 가장 가능성이 있는 유전자를 선정하여 네트워크 기반 특징을 추출하고 이 특징을 바탕으로 모델을 학습하여 차별 발현 유전자를 분류하는 것이다. 열개의 RNA-seq 데이터를 이용하여 검증한 결과, 기존의 분석 도구들보다 우수한
성능을 보임을 확인하였다.
두 번째 연구에서는 단백질 상호 작용 네트워크상의 최단 경로를 계산하여 특정 실험 조건하에서 패스웨이 상호 작용 네트워크를 구축할 수 있는 패스웨이 상호 작용 네트워크 구축 방법(PINTnet)에 대한 내용을 다룬다. 기존의 방법들은 유전자 사이의 관계를 고려하지 않고 패스웨이를 단순히 유전자의 집합으로만 다루는 문제를 가지고 있다. 본 연구에서는 유전자 사이의 관계를 고려하여 각 패스웨이 쌍에 매핑된 단백질 상호작용 네트워크에서 최단 경로를 계산하고, 이를 통해 만들어진 서브네트워크에서 근접중심성과 유전자 발현량의 곱을 바탕으로 패스웨이 상호작용의 활성화 상태를 측정함으로 문제를 해결하였다. 세 개의 RNA-seq 데이터를 이용하여 PINTnet의 성능을 평가한 결과, 각 데이터의 원 논문에서 주장한
결과를 성공적으로 재현함을 확인하였다.
마지막 연구는 만성 췌도 이식편 소실의 원인을 밝히기 위한 이종장기이식 데이터 분석에 관한 내용을 다룬다. 만성 단계에서의 이식편 소실의 기작을 밝히기 위해, PINTnet을 사용하여 돼지 췌도가 이식된 원숭이의 RNA-seq 데이터를 분석하였고 T 세포 수용체 신호 전달 패스웨이(T cell receptor signalling pathway)가 활성화 되었음을 확인하였다. 해당 원숭이의 간 샘플을 생검하여 CD3+ T 세포가 이식된 췌도에 침투하였음을 확인함으로써 분석 결과가 실제 결과와 일치함을 확인하였다. 한편, 네트워크 전파를 이용하여 다섯 가지 거부 반응 시나리오를 검증하였고 T 세포로 인한 거부반응이 가장 가능성이 높음을 확인하였다.
결론적으로, 본 논문에서는 다양한 전사체 데이터 분석을 수행함에 있어서 네트워크 정보, 네트워크 특성 및 네트워크 전파를 이용한 네트워크 분석 및 기계학습 기법이 유용함을 보였다.
Language
eng
URI
https://hdl.handle.net/10371/162452

http://dcollection.snu.ac.kr/common/orgView/000000158311
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share