Publications

Detailed Information

Application of novel approaches based on NGS technology for identification of species and copy number variation : 종 및 복제수 변이 검출을 위한 차세대 염기서열 기술 기반 새로운 접근법의 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

설동혁

Advisor
김희발
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
metagenomicsprobioticscopynumbervariationbioinformaticsNGS
Description
학위논문(박사) -- 서울대학교대학원 : 농업생명과학대학 농생명공학부(바이오모듈레이션전공), 2022. 8. 김희발.
Abstract
Next-generation sequencing (NGS) technologies have contributed to a diverse range of biological research areas: NGS-based studies have revealed previously unknown host-microbe interaction or have enabled effective genomic selection by discovering genetic variants that cause phenotypic changes during domestication. The accumulation of knowledge and new insights derived from NGS was possible because various approaches have been developed and applied according to the specific purpose for solving each biological problem. Novel approaches include targeted sequencing that produces only genomic regions of interest economically and the development of new algorithms that can efficiently analyze genomic big data. This doctoral dissertation, which consists of three studies, focuses on these novel approaches for NGS data analysis. The first study focuses on the development of a novel pipeline related to food quality and safety management. The second study focuses on the development of a database and an analysis tool for the activation of the use of novel marker in bacterial metabarcoding analysis with long-reads. The last study, although not a novel approach, focuses on the identification of copy number variation (CNV) in domesticated chicken, which is a relatively less studied genetic variant compared to a single nucleotide variant.
Specifically, in chapter 1, background knowledge and research trends of metagenome analysis and identification of CNV are summarized.
Chapter 2 describes the probiotic species detection pipeline using NGS data with the breadth of coverage. For the accuracy of determining the presence and absence of probiotic species in the product, a reference data set was established by selecting a representative strain for each species, and a threshold value for the breadth of coverage was defined. Regardless of the sequencing platform, the pipeline accurately detected the probiotic species contained in the product. Also, it was confirmed that the false-positive case was controlled completely, which was the problem in other read classification-based methods.
Chapter 3 describes the construction of the 16S-ITS-23S rRNA operon database and tool for species-level bacterial community analysis. The advent of long-read sequencing platforms made it possible to use long markers for metabarcoding. In the bacterial community analysis, a taxonomic resolution was considerably improved up to the species-level by using 16S-ITS-23S rRNA operon sequences (~4300 bp), which has about 10 times longer than the previously used partial 16S rRNA sequences (~400 bp). However, curated databases and appropriate tools for rRNA operon analysis are still lacking. Therefore, to activate the 16S-ITS-23S rRNA operon sequence analysis, all bacterial genomes were collected from the National Center for Biotechnology Information (NCBI) and curated for the construction of the database. A user-friendly mapping-based analysis tool was also developed. Analysis of various mock and simulated samples using the database and tool showed promising results at the species level.
In chapter 4, breed-specific CNV was identified in three chicken breeds: Rhode Island Red, Cornish, and White Leghorn. Red Jungle Fowl was used as a control group to explore CNV only found in domesticated breeds. The depth of coverage was used to identify CNV. And CNV regions were obtained for comparison between breeds. Based on CNVR, Cornish was closer to Rhode Island Red than White Leghorn. And functional annotation of domesticated CNVR revealed that mainly enriched terms involved in immune regulation, metabolism, and organ development.
This dissertation presented that novel approaches to NGS data can yield a variety of biological insights. I expect that the analysis methods and databases which were constructed in this dissertation will contribute to various studies.
유전학, 미생물학, 의학 등에서 널리 활용되고 있는 차세대 염기서열 분석 기술은 전에 알지 못했던 숙주-미생물 상호 작용에 대한 이해를 돕고, 가축화 유전자 탐색을 통해 유전체 선발을 위한 정보를 제공해주는 등 다양한 분야에서 지식을 누적시키고 새로운 수준의 통찰력을 제공하고 있다. 이러한 지식의 확장은 염기서열 분석 기술의 출현과 더불어 각 분야에서 목적에 맞게 다양한 접근 방법을 개발하고 응용하였기 때문에 가능하였다. 접근 방법의 다각화는 다양한 측면에서 이루어지는데 데이터 생산단계에서 표적 시퀀싱과 같이 염기서열 읽는 부위를 제한하여 보다 경제적으로 필요한 정보만을 생산하거나, 데이터 분석단계에서 효율적 분석을 위해 새로운 알고리즘이 탑재된 소프트웨어를 개발하는 등이 그 예이다. 본 논문은 이러한 접근 방법의 다각화에 초점을 맞추었으며 차세대 염기서열을 이용한 검출이라는 주제하에 세 가지의 연구로 이루어져 있다. 첫 번째 연구는 식품의 품질관리와 관련된 새로운 염기서열 분석 방법 개발에 관한 것이다. 두 번째 연구는 세균 메타바코딩 분석에서 새로운 마커 유전자 사용의 활성화를 위한 데이터베이스 구축 및 분석 방법 개발에 관한 것이다. 마지막으로 세 번째 연구는 기존에 개발된 복제수 변이 검출 방법을 통해 잘 알려지지 않은 가축화 된 닭의 복제수 변이 발굴에 관한 것이다.
구체적으로 총 4장으로 이루어진 본 논문의 제 1장에서는 메타게놈분석, 복제수 변이 검출 법 등 본 논문의 기본 배경지식 및 연구동향을 정리하였다.
제 2장에서는 참조서열에 서열 리드를 맵핑 할 때 생기는 커버리지 폭을 이용하여 프로바이오틱스 종 검출 파이프라인을 구축하였다. 제품 내 프로바이오틱스 종의 함유 유무를 보다 정확하게 판단하기 위하여 종마다 대표 균주를 선정하여 참조 데이터셋을 구축하였고, 새로운 미생물 동정 기준인 커버리지 폭에 대한 임계값을 제시, 검출에 사용하였다. 그 결과 시퀀싱 플랫폼과 상관없이 제품 내 함유된 종을 정확히 검출하였고 특히, 기존 서열 리드 분류 기반 파이프라인에서 문제가 된 위양성 케이스가 완벽하게 제어됨을 확인하였다.
제 3장에서는 종 (species) 수준의 세균 군집 분석을 위한 16S-ITS-23S rRNA 오페론 서열 데이터베이스 구축 및 이를 활용할 수 있는 소프트웨어 개발에 관하여 기술하였다. 수 천에서 수 십만 이상의 길이를 한 번에 읽을 수 있는 3세대 시퀀서의 출현으로 메타지노믹스 분야에서 기존 세균 군집 분석에 사용되던 16S rRNA 서열의 일부가 아닌 약 10배의 정보를 가지고 있는 16S-ITS-23S rRNA 오페론 서열의 사용이 가능해졌고 종 수준까지 분류 해상도가 크게 향상되었다. 본 연구에서는 높은 분류학적 해상도를 보이는 16S-ITS-23S rRNA 오페론 서열 분석의 활성화를 위해 미국 국립생물공학정보센터에서 모든 세균 유전체를 모아 큐레이션을 거쳐 16S-ITS-23S rRNA 오페론 서열 데이터베이스를 구축하였고 사용자 친화적인 맵핑 기반의 자동화 소프트웨어를 개발하였다. 또한 이를 활용한 다양한 모의 샘플 분석 결과 종 수준으로 매우 정확하게 분류함을 확인하였다.
제 4장에서는 로드아일랜드레드, 코니시, 화이트 레그혼 세 닭 품종에서 품종 특이적인 복제수 변이를 발굴하였다. 참조서열에 서열 리드를 맵핑 할 때 생기는 커버리지 깊이를 복제수 변이를 발굴에 사용하였으며, 야생종인 적색야계의 데이터를 대조군 삼아 가축화된 닭에서만 발견되는 복제수 변이를 정리하였다. 복제수 변이를 기준으로 코니시와 로드아일랜드레드가 화이트 레그혼 종 보다 서로 좀 더 가까움을 밝혔으며, 기관 발달, 면역조절, 대사와 관련된 유전자 부근에 복제수 변이가 많이 발굴됨을 확인하였다.
본 논문은 새로운 접근방식으로 염기서열 데이터를 분석하여 다양한 생물학적 통찰력을 얻을 수 있음을 보여주었으며, 구축된 분석 방법 및 데이터베이스는 여러 연구자들에게 도움이 될 것으로 기대한다.
Language
eng
URI
https://hdl.handle.net/10371/187954

https://dcollection.snu.ac.kr/common/orgView/000000172193
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share