Browse

Application of statistical analysis in transcriptomic and metagenomic data

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
방소현
Advisor
김희발
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
Gut microbiomeMachine learningDisease classificationGrowth performanceRNA-Seqlong non-coding RNAs
Description
학위논문(석사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 김희발.
Abstract
With the advance in sequencing technology, genomics, transcriptomics, proteomics, epigenomics and metagenomics study genetic materials on the genome-wide scale. Transcriptome and metagenomics have common tools and methods for analysis because they use quantitative data. Analysis of transcriptome data aims at quantifying gene expression and finding differentially expressed genes (DEG) under the certain condition. To detect DEG and trait-associated genes, various statistical methods and tools have been developed and some of them are widely being used. As analysis of metagenome data also use quantified abundance of microorganisms, some developed tools for transcriptome analysis were also applied in metagenome data. In this thesis, I described how the statistical methods were employed to solve biological problems in quantitative data.
Analysis of quantitative data recently employed machine learning based methods to predict traits including disease and healthy status. Especially, as gut microbiome is associated with hosts health, several studies suggested the possibility to diagnosis the diseases using abundance and kinds of microorganisms living in gut. In Chapter 2, machine learning based multi-classifier algorithms were established and evaluated to classify several diseases using gut microbiome data. LogitBoost algorithms and using abundance of microorganisms at genus level showed the highest performance. By selecting microorganisms to enhance the performance, the selected microorganisms were suggested as markers to classify various disease simultaneously.
Gut microbiome is used as significant marker not only in human health but also in domestic animals. For example, microbial communities altered by feeds in broiler chickens. In Chapter 3, the effect of A. hookeri on gut microbiome in young broiler chickens was investigated. Statistical test revealed that the composition of microbiome was altered by supplement with A. hookeri leaf. The modulated gut microbiome by leaf was correlated with growth traits including body weight, bone strength, and infectious bursal disease antibody.
For more accurate analysis of quantitative data, accurate quantification of genetic materials is essential. Chapter 3 suggests the cause of mis-quantification of mRNAs and solutions to reduce the mis-quantified expression. Long non-coding RNAs, which are overlapped with mRNAs in genomic position, can be mis-quantified to the overlapped mRNAs. Simulation showed the degree of errors by such mis-quantification. Tools for alignment and quantification were compared to reduce the error and achieve more accurate quantification for transcriptome.
시퀀싱 기술의 발달로 유전체, 전사체, 단백체, 후성 유전체, 메타지노믹와 같은 분야에서 유전체 단위로 생명체의 정보를 해독할 수 있게 되었다. 이 중 전사체와 메타지놈 분야는 정량화된 유전 정보를 다룬다는 공통점 때문에 통계적 분석 방법들을 공유하고 있다. 전사체 분석은 유전자들의 발현을 정량화 하고, 특정 조건 하에 다른 양으로 발현되는 유전자를 발굴하는 것을 목표하고 있다. 정량화된 양을 그룹 간 비교하는 거나 형질과 관련된 유전자를 찾기 위해 여러 통계적 분석 도구 및 방법들이 개발되었으며 널리 사용되고 있다. 메타지놈 분석은 정량화 하는 대상이 미생물들의 양이라는 것은 다르나 정량화한 미생물들의 양을 분석하기 때문에 전사체에서 사용되었던 방법들이 대부분 이용되고 있다.
양적 자료의 기본적인 분석에서 더 나아가서 머신러닝기법을 이용하여 정량화된 유전물질의 양으로 질병과 같은 형질을 예측하고자 하는 시도도 이루어 지고 있다. 특히, 인간의 장내미생물은 면역체계와 연관성이 있기 때문에 장내미생물의 종류와 양으로 질병을 진단하려는 여러 연구가 보고 되었다. 제 2장에서는 다양한 질병을 가진 환자들의 장내미생물을 이용하여 머신러닝기반 다중 분류 알고리즘으로 질병을 분류할 수 있는 모델을 구축하고 이를 평가하였다. 이 연구를 통해 LogitBoost 기반 예측 모델이 6 가지 질병을 가장 잘 구분 짓다는 것을 밝혔고, 미생물의 분류체계 중 속(genus)에서의 양을 이용했을 때 성능이 가장 좋다는 것을 보였다. 또한 미생물들을 선택하여 모델의 성능을 높이는 과정에서 다양한 질병을 동시에 구분하는 미생물들을 질병 진단을 위한 마커로 제시하였다.
인간에서 뿐만아니라 동물들에서도 장내미생물의 조성은 건강 및 생산량의 중요한 지표로 이용되고 있다. 예를들어, 사료에 따라 육계의 장내미생물 조성의 변화는 과거 연구에서 보고되어 왔다. 3장에서는 삼채를 복용한 육계의 장내 미생물을 조사하고, 생산성과 연관이 있는 장내미생물들을 발굴하였다. 삼채의 잎을 복용은 육계의 장내미생물에 영향을 미치는 것을 밝혀내었으며, 연관성 분석을 통해서 삼채의 복용에 영향을 받는 미생물들이 육계의 체중, 경골강도 및 면역과 관련되어 있다 것을 제시하였다. 또한 미생물 기능분석을 통해 미생물 조성의 변화가 탄수화물 대사를 증진시킨다는 단서를 제시하였다.
정량적 데이터들의 좀 더 정확한 분석을 위해서는 정량화 단계에서 유전물질의 정확한 측정이 무엇보다 중요하다. 3장에서는 전사체 분석에서 mRNA의 발현량이 정확히 측정되지 못하게 하는 에러요인을 제시하고 이를 해결하기 위한 방법들을 제시하였다. 유전체 서열에서 mRNA와 중첩되어 있는 lncRNA는 정량화의 알고리즘상 mRNA로 오인될 수 있다는 것을 가정하였으며 시뮬레이션을 통해 lncRNA 발현량임에도 mRNA로 정량화되는 에러율을 제시하였다. 이러한 에러를 해결하기 위해서 정량화 단계에서 쓰이는 여러 알고리즘과 툴을 비교하여 더 정확한 정령화를 통한 전사체 분석을 가능하도록 하였다.
Language
eng
URI
https://hdl.handle.net/10371/161671

http://dcollection.snu.ac.kr/common/orgView/000000157735
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Program in Bioinformatics (협동과정-생물정보학전공)Theses (Master's Degree_협동과정-생물정보학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse