Publications

Detailed Information

Meta-analytical Strategies for Biomarker Selection in Transcriptomic Data
메타분석 전략을 활용한 전사체상 바이오마커의 선별

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

윤준

Advisor
김희발
Major
자연과학대학 협동과정 생물정보학전공
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (박사)-- 서울대학교 대학원 : 자연과학대학 협동과정 생물정보학전공, 2019. 2. 김희발.
Abstract
The Next Generation Sqeuencing (NGS) decade resulted in explosive advancements in technology and on knowledge in the bioinformatic area of science. The timely manner of sequencing together with its cheap prices supported the accumulation of a massive pool of biological data, which lead to new findings. Much more complicated study designs along with the advanced statistical analyses have been proposed, which are responsible for the rise of bioinformatics to one of the fastest growing fields of interdisciplinary science. Inevitably, determining appropriate statistical models and summary methods is directly dependent on the experimental designs. As the results of those studies have to be presented and understood by many specialists in different communities, the summary techniques and presentations are also crucial. Meta analytical approaches on complex study designs can simplify the statistical models and enable appropriate deduction techniques in candidate filtering. The most credible candidates can be detected via multiple testing correction and other guidelines on error pruning. However, suggesting study-specific candidates or understanding the employed models and choosing presentation methods are solely on the analysts discretion so far.

In this thesis, the meta-analysis includes 1) multi-population data analysis that analyzes the populations separately (split data analysis), 2) different test methods or statistical models are used for a same dataset, 3) combining and results from an independent study. The major objective is on curating the multiple results into a study-specific biomarker of interest, using meta-analytical approaches. Chapter 2 holds the idea of meta-analysis in a sense that the program itself is made for comparison and summarization of p-values from several test results. The study itself is the first step into the meta-analytical strategies in biomarker selection. It is the most primitive chapter of the thesis, but can be used to compare the meta-analytically defined biomarkers in Chapter 3, for example. A basic set of plots is employed to highlight the most concordant results in different statistical models and tests. The incorporated pairwise scatter plot of the first module simply illustrates the correlation of p-values between a pair of tests or models. In the next module, interactive p-value thresholds are shown in the selected scatter plot, and the results are summarized in a Venn diagram. In the final module, a heatmap-like plot shows comprehensive results of all models/tests used in the study and pinpoints which candidates are concordantly significant in those results. The GUI-program proposed in the chapter is applicable to all studies that generate p-values or other statistics, and is demonstrated under several platforms and designs: microarray, GWAS, RNA-Seq, and family-based study. In Chapter 3, the final candidate genes comprise significant DEGs between male and female cattle in two of the employed pipelines. In the RNA-seq protocol, selection of mRNA relies on the poly-A tails of the reads. Unfortunately, some non-coding RNAs, including the lncRNAs, can be transcribed and have poly-A tails. In this case, transcripts from the lncRNAs are not distinguishable from those of the mRNAs. The chapter elucidates that the inclusion of a lncRNA annotation in the upstream RNA-seq process results in a dramatic difference in significant candidate lists and that the conventional pipeline neglects the quantification of ambiguous gene expression, which may result in erroneous interpretation. The effect of lncRNA annotation is also different among tissues, and such tissue-specific patterns have been attested by the concordance of significance in two different DEG analysis pipelines. In conclusion, we suggest genes that were unaffected by the annotation as most credible, from the original candidates where only the mRNA annotation is used (conventional pipeline). In Chapter 4, a sugar substitute that displays anti-inflammatory/obesity effect is analyzed at a gene-level. A normal diet group (ND), high-fat diet group (HFD), and high-fat diet with D-allulose intake group (ALL) from two tissues, liver and epididymal fat (eWAT), are used for the study. The chapter describes crosstalk genes, which are inter-tissue co-expressed genes that are defined to have concordant regulation pattern between liver and eWAT in this study. The two tissues are chosen for their known interaction. The meta-analytical approach here is to summarize the expression profiles in two different tissues, and to draw the concordantly regulated gene expression between-tissues. Furthermore, the study-specific candidates are the Recovered genes that are initially up- or down-regulated by the high fat diet group, but reverts back to normal-level after D-allulose intake. These genes, selected from the pool of cross-talk genes, showed a correlation with the two inflammation-related genera: Lactobacillus and Coprococcus. For this study, much of the extraneous factors (i.e. exercise, food intake, etc.) are well controlled as it is a mouse study, and such rebound of gene expression can be thought of as the outcome of D-allulose intake. The study employs 3 statistical models for liver and eWAT each, and correlation test to derive the recovered genes through meta-analysis of those models. The final 20 RecGs are concordantly expressed in technical validation by qRT-PCR in both tissues. In displaying the candidates, a modified version of the volcano plot has been proposed
the lava plot, which incorporates p-value, fold-change, and a factor in the statistical model (in this study, the tissue factor has been illustrated). The plot highlights the direction of expression regulation, with fold-change, and the significance of the statistical test with color-coded p-values of two tissues for each point (a gene). For Chapter 5, integration of Trait associated genes and differentially expressed genes requires 4 TAG models and 3 DEG models for each tissues. The study-specific biomarker in this chapter is defined as toggles genes, which are body weight-related in all diet groups, and have specific expression pattern in the high fat diet (HFD) group. Of the genes that have HFD-specific expression pattern, those in direct relation or association with body-weight are a more plausible candidate for obesity. The chapter focuses on the TAGs (based on raw p-value) that are significant DEGs after multiple testing correction. By testing only the significant TAGs in the DEG analysis, I could gain statistical power. Such hierarchical approach is only advantageous when the p-values are adjusted
raw p-values from the second analyses will be the same even if more genes are used. By reducing the number of tests in the second step of the hierarchical pipeline, statistical power is gained, and reliable candidates can be detected in larger numbers.

From Chapters 2 to 5, various meta-analytical techniques have been suggested and illustrated through NGS datasets. By integrating multiple statistical models and multi-class biomarkers, I have simplified scientific ideas that are specific to the datasets, and derived candidate biomarkers by defining a pipeline to integrate the results. Simple variations in the pipeline and plot characteristics helped to fuse ideas that have not been handled before. Given the results, I anticipate that researchers conducting -omics analyses with or without advanced knowledge in statistics or programming can employ my meta-analytical approaches and plots to efficiently highlight and present their works to a broad spectrum of audiences.
차세대 염기서열 분석은 생물정보학을 포함한 생명과학 분야에 기술적으로나 지식적으로 비약적인 발전을 가져왔다. 또한, 차세대 염기서열 분석은 그 신속성과 저렴한 비용으로 인해 수많은 생물학적 데이터의 생산과 이에 관한 연구에 활용되어 왔다. 이는 필연적으로 대용량 자료를 분석할 수 있는 복잡한 통계적 분석 기법의 발전으로 이어졌으며, 생물정보학 이라는 신생 분야의 발전을 촉진하는 원동력이 되었다. 그러나 복잡한 대용량 자료구조 및 통계적 분석 기법은 연구설계나 내용에 대한 직관적인 이해를 방해할 뿐만 아니라, 특히 생물정보학을 도구로서 활용하는 비전공자의 연구에 커다란 걸림돌이 된다. 따라서 메타분석을 사용한 적합한 통계 모형 구축과 바이오마커 선별 같은 생물정보학적 분석파이프라인은 연구자의 연구 내용과 자료를 잘 대변해 줄 수 있어야 한다. 현재, 분석 방법론과 프로그램은 많이 제시되어 있는 상태이지만, 이러한 기술들을 연구자가 실제 연구에 어떻게 효과적으로 적용할 것인가는 자료 특이적이며, 그 분석결과의 해석은 여전히 연구자의 재량에 달려있다.

이 학위논문은 다양한 실험설계 상황에서 각각의 설계에 부합하는 의미 있는 후보 유전자를 발굴해 내기 위한 메타분석기법을 중점을 두고 있다. 2장에서는 생물정보학 분석에서 p값에 대한 메타 분석을 다루고 있다. 특히, 다양한 통계 모형과 검증에서 나온 결과를 비교 및 통합할 수 있는 시각화 방법과 여러 독립된 통계검증 결과에서 동시에 유의한 후보 유전자를 발굴하는 예제를 다루고 있다. 또한 이 장에서 제시된 기법을 사용한 GUI (Graphic User Interface) 기반 프로그램을 microarray, GWAS, RNA-seq, 가족 기반 데이터 등 다양한 형태의 데이터에 적용함으로써, 제시된 프로그램이 p값을 포함한 다양한 통계치에 기반한 연구에 활용될 수 있음을 보였다.

3장에서는 mRNA-seq 데이터 분석에서 long non-coding RNA (lncRNA) 를 고려하지 않음으로써 생기는 분석결과의 문제점과 이에 타격을 입지 않는 바이오마커 선별을 다루고 있다. 일반적으로 mRNA-seq 프로토콜에서 mRNA를 선택적으로 분리해 내는 방법은 poly-A tail을 이용한다. 그러나 lncRNA를 포함한 일부 non-coding RNA 들도 mRNA 와 마찬가지로 전사과정에서 poly-A tail을 가진다. 이러한 경우에 RNA-seq 데이터 내에서 lncRNA 와 mRNA 는 명확히 구분되지 않는다. 이 장에서는 RNA-seq 데이터 분석과정에서 lncRNA annotation 의 고려 유무가 최종 결과인 차등 발현 유전자 결과에 상당한 영향을 미친다는 것을 보여줌으로써, lncRNA를 고려하지 않은 기존의 분석방법이 후보 유전자 발굴에 변수가 될 수 있음을 밝혔다. 더불어, lncRNA annotation이 후보 유전자 결과에 미치는 영향은 조직 별로 다른 양상을 나타낸다는 것을 두 개의 독립적인 차등발현 유전자 분석방법을 통해 보여주었다. 결론적으로 lncRNA annotation 정보의 영향을 받지 않는 유전자들이 mRNA-seq 실험설계목적에 가장 부합되는 후보 유전자 임을 제시하였다.

4장에서는 항 염증과 비만에 효과를 보이는 감미료를 먹인 쥐에 대한 RNA-seq및 Metagenome 분석을 통해 실험 목적에 부합하는 후보유전자발굴 과정을 다루었다. 정상식이집단 (ND), 고지방식이집단 (HFD), D-allulose와 고지방식이집단 (ALL) 에 대해 각각 2개의 조직을 사용하였으며, 고지방식이에 대한 D-allulose의 효과와 밀접하게 관련된 후보유전자를 발굴하기 위하여 Recovery gene (RecG) 을 정의하였다. RecG 은 개념적으로 고지방식이의 유전자 발현 상태에서 D-allulose를 섭취했을 때 정상상태로 돌아가는 유전자를 말하여, 실제 분석에서는 두 조직 모두에서 HFD 집단의 발현이 다른 두 집단에 비해 유의하게 높거나 낮고, ND 와 ALL 집단에서는 발현량이 차이가 없으며, 염증과 관련된 유전자로 정의하였다. 또한 이러한 RecG 의 발현 양상을 효과적으로 보여주기 위하여 기존의 Volcano plot을 변형한 Lava plot 을 고안하였다. Lava plot 은 Volcano plot과 같이 각 유전자에 대한 p-value, fold-change 정보를 보여줌과 동시에, 통계모형에서 추가적으로 고려한 요인(여기서는 조직)에 대한 정보를 보여줄 수 있다. RecG의 염증 관련 미생물과의 관련성을 Metagenome 을 통해 확인하였고, qRT-PCR을 통해 최종 후보 RecG가 두 조직에서 RNA-seq 데이터와 동일한 양상으로 발현하는 것을 확인하였다.

5장에서는 앞서 발굴된 HFD 집단 특이적 유전자들의 발현이 몸무게와 관련이 있는지를 분석하였다. 먼저 Raw p값을 이용하여 형질(몸무게)과 관련된 후보유전자를 발굴하고, adjusted p값을 이용하여 발굴된 후보 유전자에서 고지방식이와 관련된 최종 후보 유전자를 발굴하였다. 이러한 단계적 분석 방법은 실험의 최종 목적이 형질과 연관된 유전자(여기서는 몸무게)인 경우에 1차적으로 후보유전자를 줄여줌으로써 검정력을 높여 줌과 동시에 더 많은 후보유전자를 발굴할 수 있다는 장점이 있다. 결과적으로, 단계적 분석 방법을 통해 몸무게와 고지방식이 모두에 관련이 있는 후보유전자를 발굴하였으며, 그 기능이 염증 또는 종양과 관련이 있는 것을 확인하였다.

이 학위논문에서는 제2장에서부터 5장에 걸쳐 차세대 염기서열 분석 자료에 대한 다양한 메타분석기법을 제시하였다. 구체적으로, 자료에 걸맞는 바이오마커의 선별과 신뢰성 있는 후보유전자를 발굴하기 위한 기법과 더불어, 효과적인 시각화 기법을 통해 과학적 연구결과에 대한 직관적 이해를 도울 수 있는 방안을 제시하였다. 또한 기존 분석 및 시각화 방법에 대한 간단한 변형을 통해 기존에 다뤄지지 않았던 여러 생물학적 주제들을 효과적으로 융합할 수 있었다. 본 논문의 파이프라인들은 여러 분야의 연구자들이 OMICS 분석을 수행할 때 연구결과를 효과적으로 제시하는 데에 도움을 줄 것이라 기대된다.
Language
eng
URI
https://hdl.handle.net/10371/152946
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share