Publications

Detailed Information

Quantification of pathway activity using RNA-seq data : RNA-seq 데이터를 활용한 패스웨이 활성도의 정량화에 관한 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

임상수

Advisor
김선
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
biological pathwaypathway activityprotein-protein interactionbiological networkgene expressionRNA-seq
Description
학위논문(박사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 김선.
Abstract
RNA-seq 데이터를 사용하여 RNA 전사체의 변화량을 측정하는 것은 생물정보학 분야에서 필수적으로 수행하고 있는 분석 방법 중 하나이다. 그러나 RNA-seq은 인간의 2만개 이상의 유전자를 포함하는 고차원의 전사체 데이터를 생성하기 때문에, 상대적으로 적은 양의 샘플들을 분석하고자 할때는 데이터 해석에 있어서 어려움이 있다. 따라서, 더 나은 생물학적 이해를 위해서는 생물학적 패스웨이와 같이 잘 요약되고 널리 사용되는 정보를 사용하는 것이 유용하다. 그러나 전사체 데이터를 생물학적 패스웨이로 요약하는 것은 몇 가지 이유로 매우 어려운 작업이다. 첫째, 전사체 데이터를 패스웨이 차원으로 변환할 때 엄청난 정보 손실이 발생한다. 예를 들어, 인간에 존재하는 전체 유전자의 1/3만이 KEGG 패스웨이 데이터베이스에서 보고되고 있다. 둘째, 각 패스웨이는 많은 유전자로 구성되어 있으므로 패스웨이의 활성도를 측정하려면 구성하고 있는 유전자 간의 관계를 고려하면서 유전자 발현 값을 단일 값으로 요약해야 한다.

본 박사 학위 논문은 패스웨이 활성도 측정을 위한 새로운 방법을 개발하고 여러 비교 기준에 따라 기존에 보고된 패스웨이 활성도 도구들에 대한 광범위한 평가 실험을 수행하고자 한다. 또한 일반 사용자가 자신의 데이터를 쉽게 분석할 수 있도록 앞서 언급한 도구들을 웹 기반 시스템 구축을 통해 쉽게 사용할 수 있도록 하였다.

첫 번째 연구에서는 전사체 유전자 발현양 정보를 그대로 사용하고, 상호작용 네트워크 측면에서 유전자 간의 관계를 고려하여 패스웨이의 관점으로 전사체 데이터를 요약하는 새로운 방법을 개발하였다. 이 연구에서는 단백질 상호 작용 네트워크, 패스웨이 데이터베이스 및 RNA-seq 전사체 데이터를 활용하여 생물학적 패스웨이를 여러 개의 시스템으로 구분하는 새로운 개념을 제안하고자 한다. 각 시스템 및 각 샘플마다의 활성화 정도를 측정하기 위해 SAS (Subsystem Activation Score)를 개발하였다. 이 방법은 샘플 들간 및 유방암 아형들 사이에서 차별적으로 활성화되는 특유의 유전체 상에서의 활성화 패턴 또는 서브 시스템을 표현할 수 있었다. 그런 다음, 분류 및 회귀 트리 (CART) 분석을 수행하여 예후 모델링을 위해 SAS 정보를 사용했습니다. 그 결과, 10 개의 가장 중요한 하위 시스템으로 정의 된 11 개의 환자 하위 그룹은 생존 결과에 있어 최대 불일치로 확인되었다. 이 모델은 유사한 생존 결과를 가진 환자 하위 그룹을 정의했을뿐만 아니라 기능적으로 유익한 유방암 유전자 세트를 제안하는 하위 시스템의 활성화 상태에 따라 결정되는 샘플 특이적인 상태의 판단 경로를 제공한다.

두 번째 연구는 전 암 (pan-cancer) 데이터 세트를 사용하여 다섯 가지 비교 기준에 따라 13 가지의 패스웨이 활성도 측정 도구를 체계적으로 비교 및 평가하는 연구이다.현존하는 패스웨이 활성도 측정 도구가 많이 있지만, 이러한 도구가 코호트 수준에서 유용한 정보를 제공하는지에 대한 비교 연구는 없다. 이 연구는 크게 두 가지 부분에 대해서 의미가 있다. 첫째, 이 연구는 기존의 패스웨이 활성도 측정 도구에서 사용되는 계산 기법에 대한 포괄적인 정보를 제공한다. 패스웨이 활성도 측정은 다양한 접근법을 사용하고, 입력 데이터의 변환, 샘플 정보의 사용, 코호트 수준의 인풋 데이터의 필요성, 유전자 관계 및 점수체계의 사용 등에서 다양한 요구 사항을 가정해야 한다. 둘째, 이러한 도구의 성능에 대한 다섯 가지 비교 기준을 사용하여 광범위한 평가가 수행되었다. 도구가 원래의 유전자 발현 프로파일의 특성을 얼마나 잘 유지하는지를 측정하는 것부터, 유전자 발현 데이터에 노이즈를 임의로 도입하였을 때 얼마나 둔감한지 등을 조사했다. 임상 적용을 위한 도구의 유용성을 평가하기 위해 세가지 변수 (종양 대 정상, 생존 및 암의 아형)에 대한 분류 작업을 수행했다.

세 번째 연구는 사용자가 전사체 데이터를 제공하고, 앞선 연구에서 비교한 활성도 측정 도구를 사용하여 패스웨이 활성도를 측정하는 클라우드 기반 시스템 (PathwayCloud)을 구축하는 것이다. 사용자가 데이터를 시스템에 업로드하고 실행할 분석 도구를 선택하면, 이 시스템은 각 도구에 대한 패스웨이 활성도 값과 선택한 도구에 대한 성능 비교 요약을 자동으로 수행한다. 사용자는 또한 주어진 샘플 정보의 측면에서 어떤 패스웨이가 중요한지 조사 할 수 있으며, KEGG rest API를 통해서 직접 패스웨이의 어떤 유전자의 변화가 유의미한지를 시각적으로 분석할 수 있다.

결론적으로, 본 학위 논문은 고용량의 유전자 발현 데이터를 사용하여 생물학적 패스웨이에 대한 분석 방법을 개발하고, 다른 유형의 도구를 포괄적인 기준으로 비교하고, 사용자가 이 도구들에 쉽게 접근할 수 있는 웹 기반 시스템을 제공하는 것을 목표로 한다. 이 전반적인 접근 방식은 생물학적 패스웨이 측면에서 유전자 발현 데이터를 이해하는 데 중요했다.
Measuring the dynamics of RNA transcripts using RNA-seq data has become routine in bioinformatics analyses. However, RNA-seq produces high-dimensional transcriptome data on more than 20,000 genes in humans. This makes the interpretation of the data extremely difficult given a relatively small set of samples. Therefore, it is desirable to use well-summarized and widely-used information such as biological pathways for better biological comprehension. However, summarizing transcriptome data in terms of biological pathways is a very challenging task for several reasons. First, there is a huge information loss when transforming transcriptome data to pathway space. For example, in humans, only one third of the entire set of genes being analyzed are present in KEGG pathways. Second, each pathway consists of many genes; thus, measuring pathway activity requires a strategy to summarize expression profiles of component genes into a single value, while considering relationship among the constituent genes.

My doctoral study aimed to develop a new method for pathway activity measurement, and to perform extensive evaluation experiments on existing pathway measurement tools in terms of multiple evaluation criteria. In addition, a cloud-based system was constructed to deploy such tools, which facilitates users analyzing their own data easily.

The first study is to develop a new method to summarize transcriptome data in terms of pathways by using explicit transcript quantity information and considering relationship among genes in terms of their interactions. In this study, I propose a novel concept of decomposing biological pathways into subsystems by utilizing protein interaction network, pathway information, and RNA-seq data. A subsystem activation score (SAS) was designed to measure the degree of activation for each subsystem and each patient. This method revealed distinctive genome-wide activation patterns or landscapes of subsystems that are differentially activated among samples as well as among breast cancer subtypes. Next, we used SAS information for prognostic modeling by classification and regression tree (CART) analysis. Eleven subgroups of patients, defined by the 10 most significant subsystems, were identified with maximal discrepancy in survival outcome. Our model not only defined patient subgroups with similar survival outcomes, but also provided patient-specific decision paths determined by SAS status, suggesting functionally informative gene sets in breast cancer.

The second study aimed to systematically compare and evaluate thirteen different pathway activity inference tools based on five comparison criteria using a pan-cancer data set. Although many pathway activity tools are available, there is no comparative study on how effective these tools are in producing useful information at the cohort level, enabling comparison of many samples. This study has two major contributions. First, this study provides a comprehensive survey on computational techniques used by existing pathway activity inference tools. Existing tools use different strategies and assume different requirements on data: input transformation, use of labels, necessity of cohort-level input data, use of gene relations and scoring metrics. Second, extensive evaluations were conducted using five comparison criteria concerning the performance of these tools. Starting from measuring how well a tool maintains the characteristics of an original gene expression profile, robustness was also investigated by introducing noise into gene expression data. Classification tasks on three clinical variables were performed to evaluate the utility of tools.

The third study is to build a cloud-based system where a user provides transcriptome data and measures pathway activities using the tools that were used for the comparative study. When a user uploads input data to the system and selects which preferred analysis tools are to be run, the system automatically generates pathway activity values for each tool as well as a summary of performance comparison for the selected tools. Users can also investigate which pathways are significant in terms of the given sample information and visually inspect genes within a pathway-linked KEGG rest API.

In conclusion, in my thesis, I sought to develop an analysis method regarding biological pathways using high throughput gene expression data to compare different types of tools with comprehensive criteria, and to arrange the tools in a cloud-based system that is easily accessible. As pathways aggregate various molecular events among genes in to a single entity, the set of suggested approaches will aid interpretation of high-throughput data as well as facilitate integration of diverse data layers such as miRNA or DNA methylation profiles being taken into consideration.
Language
eng
URI
https://hdl.handle.net/10371/162456

http://dcollection.snu.ac.kr/common/orgView/000000157899
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share