Publications

Detailed Information

Comparison of metagenomics contig binning methods : 메타게놈 염기서열 클러스터링 방법 비교

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김수민

Advisor
유연주
Major
사범대학 수학교육과
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 사범대학 수학교육과, 2019. 2. 유연주.
Abstract
With the recent advances in next generation sequencing technologies, shotgun metagenomics, direct sequencing of genetic materials from environmental samples, became available. Shotgun metagenomics enables research of previously under-examined or unknown microbes that cannot be cultured in laboratories. Metagenomics therefore has potential to identify novel genomes from samples and its abundance within samples. Since short-read sequencing outputs a large number of reads in a single run, the task is to construct the genome from which the reads originate. However, since the reads produced by next generation sequencing technologies generally have short lengths, assembling reads into contigs cannot reconstruct the sequence of complete genomes. Aligning reads to the reference genome is also hindered if the reference genome is not available or coverage is insufficient. Moreover, since environmental sample contains various microbial species or strains, different reads obtained from metagenomics shotgun sequencing may originate from different taxa. Therefore, clustering contigs into bins, where each bin corresponds to a species, is needed. After sequencing reads from microbial samples, reads are assembled into contigs, which can then be clustered into species to identify which species reside in the samples. Here we compare eight taxonomy independent contig binning methods that utilizes composition and coverage information to bin contigs into clusters. By comparing their performances across 26 in silico datasets with varying parameters, we suggest a guideline of choosing appropriate methods of binning contigs for various datasets.
염기서열 결정 기술(시퀀싱)이 발달하면서 자연환경에서 미생물의 염기서열 정보를 직접 얻을 수 있는 메타게놈이 발전했다. 메타게놈을 이용하여 이전에 연구되지 않았던 미생물에 대한 연구를 할 수 있게 되었다. 시퀀싱으로 얻은 미생물 샘플의 염기서열 조각들은 겹치는 구간의 정보를 이용해 긴 가닥의 시퀀스인 콘티그로 합치는 과정인 어셈블리를 거친다. 합치는 어셈블리 과정을 통해 얻는 콘티그들은 시퀀싱으로 얻은 조각들에 비해 긴 길이를 가지지만 게놈 전체의 염기서열을 생성하지는 못한다. 따라서 각 콘티그가 어떤 미생물 종에서 유래한 것인지를 밝히기 위해 콘티그 클러스터링 방법을 사용할 수 있다. 콘티그 클러스터링을 통해 콘티그들을 클러스터에 나눠서 담고, 각 클러스터에 대응하는 미생물 종의 염기서열 정보와 그 종이 샘플 내에서 존재하는 비율을 추정하는 방법이다. 우리는 컨티그 집합의 구성과 커버리지정보를 이용하는 여덟가지의 콘티그 클러스터링 방법들을 비교하였다. 컴퓨터 시뮬레이션을 통해 서로 다른 커버리지와 샘플 수를 가지는 26가지의 데이터를 만든 후, 여덟가지의 방법들을 적용해 보고 각 방법의 성능을 측정하고 분석하였다. 우리는 어떤 방법이 상대적으로 높은 성능을 보이는지, 그리고 각 클러스터링 방법들이 적용되기에 적합한 데이터는 무엇인지 살펴보고자 한다.
Language
eng
URI
https://hdl.handle.net/10371/151196
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share