Publications

Detailed Information

Development of bacterial tools for comparative genomics : 세균 비교유전체 연구를 위한 생명정보 분석 시스템 개발

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이임창

Advisor
천종식
Major
자연과학대학 생명과학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (박사)-- 서울대학교 대학원 : 자연과학대학 생명과학부, 2019. 2. 천종식.
Abstract
최근의 유전체 시퀀싱 기술의 발전으로 유전체학은 다양한 미생물학에서 중요한 역할을 담당해 왔다. 방대한 양의 유전체 데이터를 분석하기 위해서는 적당한 알고리즘의 이용과 적절한 생물정보학적 도구들의 개발이 절실하다. 세균의 유전체 분석 절차는 어셈블리, 유전자 탐사, 그리고 유전자 표지 순으로 진행 된다. 두 개 또는 그 이상의 유전체를 서로간 비교하는 것은 비교 유전체학이라고 한다. 비교유전체학의 목적은 다중 유전체를 비교하여 생물학적 함의와 생물학적 표지 등의 비교와 예측이다. 본 연구에서는 이러한 비교 유전체학의 목적에 맞는 세 가지 프로그램을 개발하였다.

최근의 세균의 종 개념은 이전에 사용된 표현형을 이용한 방법 보다 객관적인 유전체를 이용한 관련성 연구에 기반한다. 현재 OGRI (Overall Genomic Relatedness Index)라고 불리는 쌍방향 유전체 서열 유사성은 세균 분류학 및 식별에 사용되고 있다. OGRI를 계산하는 데 가장 널리 사용되는 알고리즘은 Average Nucleotide identity (ANI)이다. 그러나 BLAST를 사용하는 기존 ANI는 쿼리 시퀀스의 선택에 따라 상호 계산에서 서로 다른 값을 산출했다. 이러한 불일치를 해결하기 위해 본 연구에서는 orthology를 기반으로 한 새로운 알고리즘은 OrthoANI라는 개발 되었다. 기존 알고리즘에서 쿼리 유전체와 대상 유전체 간 ANI값은 쿼리 유전체 만을 조각 내었지만, 새로운 알고리즘에서는 쿼리와 대상 유전체 모두를 조각 낸다. 유사성은 오로지 양방향으로 orthology가 있을 때만 계산하는 것으로 한다. OrthoANI는 기존의 ANI와 상관 관계를 잘 이루며, 양 방향 값 또한 차이가 나지 않는다. OrthoANI는 유전자 표지나 유전자 탐사 등의 과정은 없이 분류학의 목적에 맞게 바로 사용할 수 있는 프로그램이다. 또한, 이 프로그램은 간편하고, 재 생산성이 있으며, 믿을 수 있는 분류학 프로그램이다.

NGS의 사용이 미생물학 연구에서 보다 일상화 됨에 따라 오염을 포함한 유전자 서열의 품질에 관한 우려가 커지고 있다. 오염은 잘 못된 진단이라는 문제로 이어질 수 있기 때문에 임상 실험실에서 특히 중요하다. 유전체의 품질을 관리하는 시스템 개발은 일반 미생물 실험실에서도 매우 중요하다. 이런 맥락에서 16S rRNA 유전자 서열을 이용한 원핵생물 유전체의 오염 탐지 알고리즘을 갖는 ContEst16S라는 새로운 프로그램이 개발 되었다.

또한, 본 연구에서는 콜레라균의 표현형 예측 프로그램이 새로이 개발되었다. 본 연구에서 개발 된 프로그램은 콜레라균의 O 항원형 타입과 콜레라 독소 파지의 존재, 그리고 항생제 내성을 띠는지에 대한 예측 정보를 제공한다. O 항원형 예측 프로그램은 유전자 클러스터를 시각화하여 사용자에게 보여준다. 콜레라 독소 파지의 존재 예측 프로그램은 콜레라 독소 파지들의 유전정보를 이용해 타입 별로 파지 요소의 정보를 보여준다. 항생제 내성 예측 프로그램은 RGI (CARD-The Comprehensive Antibiotic Resistance Database)이라는 외부 프로그램을 사용한다.

시퀀싱 데이터에서 나오는 문자열은 생물학적 문제에 대한 결정적인 대답을 제공하지 못할 수 있다. 생화학적 검증이 없다면 그것은 그냥 예측일 뿐이다. 그러나 생물정보학에 의한 예측은 과학자들에게 매우 강력한 영향을 미치기 때문에 본 연구는 생물학 분야에 충분히 가치가 있는 연구라고 할 수 있다. OrthoANI는 분류학에 대한 표준을 제공하며 ContEst16S는 연구자들이 오염된 미생물 유전체에 대한 정보를 확인할 수 있게 해 주며, 콜레라균 표현형 예측프로그램은 O 항원 및 독성 인자를 식별하고, 항생제 저항성을 예측하는 등 콜레라균 연구에 대한 통찰력을 제공한다.
Due to the recent rapid advancement DNA sequencing technologies, genomics has played a significant role in various microbiological disciplines. Adequate algorithms and bioinformatics tools must be developed to analyze large-scale genomic data. The general procedure for analyzing the genome of a bacterium consists of assembly, gene-finding, and functional annotation. Two or more genomes can be compared in various ways, which is called comparative genomics. The objectives of comparative genomics are to predict biological implications and biomarkers by comparing genomic features of multiple genomes. In this study, three bioinformatics tools were developed that can be used for bacterial and comparative genomics.

The bacterial species concept has been changed to adopt genomic relatedness, which is more objective than previously used phenotypic methods. Pairwise genome sequence similarity, called the Overall Genomic Relatedness Index (OGRI), is used in bacterial taxonomy for identification. The most widely used algorithm to calculate the OGRI is average nucleotide identity (ANI). However, conventional ANI using BLAST may produce different similarity values from reciprocal calculations depending on the query sequence selected. To minimize this discrepancy, a new algorithm, OrthoANI, was devised to incorporate the concept of orthology. Both query and subject sequences were fragmented instead of fragmenting only the query in the original ANI algorithm. The pairwise similarity values were included when two fragments were considered orthologous. The values provided by OrthoANI show a good correlation with the original ANI values, and the reciprocal values were almost identical. OrthoANI is readily available for taxonomic purposes without the functional annotation or gene-finding processes. It allows for simple, reproducible and reliable taxonomy.

As the use of next-generation sequencing (NGS) becomes more routine in microbiology, there is growing concern about quality assurance of the sequencing data produced, including contamination. This issue is of particular importance in clinical laboratories as contamination events can lead to false diagnostic results. Development of a system to detect such cases, as a quality control process, is of primary importance in routine microbial genomics labs. In this context, a novel algorithm to detect possible biological contamination from prokaryotic genome assemblies using 16S rRNA gene sequences was proposed in this study and called ContEst16S.

Predictive tools for the Vibrio cholerae phenotype were newly developed in this study. The programs are useful to predict the O antigen serotype, the presence of cholera toxin phage elements, and antibiotic resistance of the V. cholerae strain using genomic data. Predicting O antigen serotype provides visualization of the structure of the O antigen gene cluster in the genome data. The tool for predicting cholera toxin phage elements reveals the categorized genetic elements of CTX phage. Antibiotic resistance of V. cholerae can also be predicted by the program developed in this study. The process to predict antibiotic resistance uses the RGI (CARD-The Comprehensive Antibiotic Resistance Database) program.

A simple text from sequencing data may not provide a decisive answer to a biological issue. Without biochemical verification, it is only a prediction of the question. However, a prediction produced by bioinformatics has a powerful impact, and the programs developed in this study can help advance microbiology. OrthoANI provides standardized procedures for the taxonomic field, and ContEst16S allows researchers to consult information about contaminated microbial genome assembly data. The tool for predicting the V. cholerae phenotype offers species-driven genomic insight, including identifying the O antigen and virulence factors, as well as predicting antibiotic resistance.
Language
eng
URI
https://hdl.handle.net/10371/152871
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share