Publications

Detailed Information

Comparison of metagenomics contig binning methods : 메타게놈 염기서열 클러스터링 방법 비교

DC Field Value Language
dc.contributor.advisor유연주-
dc.contributor.author김수민-
dc.date.accessioned2019-05-07T03:54:19Z-
dc.date.available2019-05-07T03:54:19Z-
dc.date.issued2019-02-
dc.identifier.other000000155922-
dc.identifier.urihttps://hdl.handle.net/10371/151196-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 사범대학 수학교육과, 2019. 2. 유연주.-
dc.description.abstractWith the recent advances in next generation sequencing technologies, shotgun metagenomics, direct sequencing of genetic materials from environmental samples, became available. Shotgun metagenomics enables research of previously under-examined or unknown microbes that cannot be cultured in laboratories. Metagenomics therefore has potential to identify novel genomes from samples and its abundance within samples. Since short-read sequencing outputs a large number of reads in a single run, the task is to construct the genome from which the reads originate. However, since the reads produced by next generation sequencing technologies generally have short lengths, assembling reads into contigs cannot reconstruct the sequence of complete genomes. Aligning reads to the reference genome is also hindered if the reference genome is not available or coverage is insufficient. Moreover, since environmental sample contains various microbial species or strains, different reads obtained from metagenomics shotgun sequencing may originate from different taxa. Therefore, clustering contigs into bins, where each bin corresponds to a species, is needed. After sequencing reads from microbial samples, reads are assembled into contigs, which can then be clustered into species to identify which species reside in the samples. Here we compare eight taxonomy independent contig binning methods that utilizes composition and coverage information to bin contigs into clusters. By comparing their performances across 26 in silico datasets with varying parameters, we suggest a guideline of choosing appropriate methods of binning contigs for various datasets.-
dc.description.abstract염기서열 결정 기술(시퀀싱)이 발달하면서 자연환경에서 미생물의 염기서열 정보를 직접 얻을 수 있는 메타게놈이 발전했다. 메타게놈을 이용하여 이전에 연구되지 않았던 미생물에 대한 연구를 할 수 있게 되었다. 시퀀싱으로 얻은 미생물 샘플의 염기서열 조각들은 겹치는 구간의 정보를 이용해 긴 가닥의 시퀀스인 콘티그로 합치는 과정인 어셈블리를 거친다. 합치는 어셈블리 과정을 통해 얻는 콘티그들은 시퀀싱으로 얻은 조각들에 비해 긴 길이를 가지지만 게놈 전체의 염기서열을 생성하지는 못한다. 따라서 각 콘티그가 어떤 미생물 종에서 유래한 것인지를 밝히기 위해 콘티그 클러스터링 방법을 사용할 수 있다. 콘티그 클러스터링을 통해 콘티그들을 클러스터에 나눠서 담고, 각 클러스터에 대응하는 미생물 종의 염기서열 정보와 그 종이 샘플 내에서 존재하는 비율을 추정하는 방법이다. 우리는 컨티그 집합의 구성과 커버리지정보를 이용하는 여덟가지의 콘티그 클러스터링 방법들을 비교하였다. 컴퓨터 시뮬레이션을 통해 서로 다른 커버리지와 샘플 수를 가지는 26가지의 데이터를 만든 후, 여덟가지의 방법들을 적용해 보고 각 방법의 성능을 측정하고 분석하였다. 우리는 어떤 방법이 상대적으로 높은 성능을 보이는지, 그리고 각 클러스터링 방법들이 적용되기에 적합한 데이터는 무엇인지 살펴보고자 한다.-
dc.description.tableofcontentsAbstract i
Contents iii
Contents of Figures v
Contents of Tables viii
Chapter 1. Introduction 1
1.1. Study Background 1
1.2. Purpose of Research 6
Chapter 2. Body 10
2.1. Methods 10
2.1.1. Data simulation 10
2.1.2. Data preprocessing 13
2.1.3. CONCOCT 15
2.1.4. COCACOLA 18
2.1.5. MetaBAT 22
2.1.6. MaxBin2 24
2.1.7. GroopM 27
2.1.8. BMC3C 29
2.1.9. MyCC 33
2.1.10. GATTACA 35
2.1.11. Evaluation measures 37
2.2. Results 41
2.2.1. Results of data with no strain variation 42
2.2.2. Results of data with multiple strain variations 57
2.3. The performance of each method 71
2.3.1. The performance of CONCOCT 72
2.3.2. The performance of COCACOLA 74
2.3.3. The performance of MetaBAT 76
2.3.4. The performance of MaxBin2 78
2.3.5. The performance of GroopM 80
2.3.6. The performance of BMC3C 82
2.3.7. The performance of MyCC 84
2.3.8. The performance of GATTACA 86
Chapter 3. Conclusion 88
Reference 92
Appendix 102
국문초록 180
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc510.7-
dc.titleComparison of metagenomics contig binning methods-
dc.title.alternative메타게놈 염기서열 클러스터링 방법 비교-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorSumin Kim-
dc.description.degreeMaster-
dc.contributor.affiliation사범대학 수학교육과-
dc.date.awarded2019-02-
dc.identifier.uciI804:11032-000000155922-
dc.identifier.holdings000000000026▲000000000039▲000000155922▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share