Publications

Detailed Information

Pangenome Reference and Missing Genomic Regions : 참조 게놈의 손실된 유전체 발견 및 범유전체 참조게놈: 인간과 결핵균을 중심으로
Human and Mycobacterium tuberculosis

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김지나

Advisor
성주헌
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
reference genomehumanMycobacterium tuberculosismissing information참조게놈인간결핵균누락된 정보
Description
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 협동과정 생물정보학전공, 2021.8. 성주헌.
Abstract
DNA 시퀀싱 기술은 현대 생물학의 중추적인 부분이다. 비용 효율성을 달성하기 위해 대부분의 시퀀싱 플랫폼에서는 참조 게놈에 기반한 리시퀀싱 접근 방식을 사용한다. 참조 게놈은 차세대 시퀀싱(NGS)에서 짧은 리드들을 매핑하고 변이들을 발견하는데 중요한 역할을 하기 때문에 여러 종들에서 참조 게놈들이 존재하고 있다. 예를 들어, 인간에서 GRCh(Genome Reference Consortium의 인간 참조 게놈)는 인간 게놈 프로젝트 이후부터 참조 게놈으로 사용되어져 왔고, 또한 결핵에서는 가장 많이 연구된 변종인 H37Rv이 참조 게놈으로 사용되어 왔다. 이전에는 개인의 유전적 변이들을 결정하는 데 하나의 참조 게놈만이 필요할 것으로 생각되었다. 그러나 참조 게놈이 특정 종의 모든 개인을 대표하는 것인지에 대해서는 여전히 회의적인 시각들이 있다. 많은 연구자들이 다른 인종 또는 혈통 집단들 간의 유전체간의 구조적 변화의 다양성을 지적하면서, 참조 게놈에는 없지만 적어도 소수의 개인들 또는 혈통들에 존재하는 새로운 유전체 서열들을 보고했다. 실제로, 시퀀싱 과정에서 "매핑되지 않은 리드"들이나 잘못된 변이 호출 등을 통해 누락되거나 제한된 정보들이 발생할수 있다. 따라서, 이 연구는 인간 및 미코박테리아 결핵균에서 기준 게놈의 누락된 유전체 영역을 확인하고 그 격차를 해소하는 시도를 하였다.
인간 유전체에서 이 연구는 아프리카 조상을 포함한 50명 이상의 개인 게놈으로 구성된 인간기준 게놈(GRCh38)에서 빠진 부분을 보완하기 위해, 고도로 연속된 게놈 조립체인 AK1을 사용했다. GRCh38에서 누락된 지역을 찾기 위해 기준 게놈(GRCh38)을 AK1과 직접 비교하는 방법과 14명의 전장 유전체 데이터(동아시아 5명, 유럽 4명, 아프리카 5명)에서 "매핑되지 않은 리드들을 다시 AK1에 붙여보는 방법을 사용하였다.
먼저, GRCh38과 AK1 간의 직접 비교는 두 시퀀스에서 간격을 허용하는 쌍방향 정렬을 설명하는 체인 파일을 사용하였고, 매핑되지 않은 읽기를 사용하는 또 다른 방법은 AK1에 다시 정렬하였는데, 각 방법은 GRCh38에 존재하지 않았던 3,333개의 고유 게놈 영역(사이즈> 200bp)과 38개의 추정 결측 영역(7명 이상의 데이터의 매핑되지 않은 리드들이 붙은 영역)을 각각 발견했다. 또한, 매핑되지 않은 리드들을 사용할 때 여러 인종들의 데이터에서 매핑되지 않은 리드들의 평균 0.90%가 AK1에 새로 정렬되었고, 동아시아 인종의 매핑되지 않은 리드들의 정렬율은 0.95%로 다른 민족에 비해 높다는 것을 확인할수 있었다.
7명이상의 전장 유전체 데이터의 매핑되지 않은 리드들이 정렬된 AK1만의 유전자 서열이자 GRCh38에서는 결측되어 있을것이라 추정되는 영역에 대한 추가 연구를 위해, 본 연구는 BLASTx와 함께 서열을 분석하여 서열의 기능적 역할을 확인해보았고, Repeat Masker를 통해 누락된 것으로 보이는 유전체 영역에 대한 반복서열을 조사하였다.
미코박테리움 결핵균에서는 참조 게놈에서 누락된 부분을 보완하기 위해 다른 방법을 사용하여 이 연구를 수행하였다. 이 연구에서는 결핵균 참조 게놈(H37Rv)의 새로운 범유전자 서열을 구성하였는데, H37Rv에서 대체 서열을 구축하기 위해 176개의 전체 게놈 어셈블리로부터 추출한 시퀀스들(갭 사이즈> 50bp)과 724개의 전장 유전체 데이터에서 추출한 "매핑되지 않은 리드들을 데노보 어셈블리를 하였다. 그 결과, 454개의 contigs들이 범유전체 시퀀스들로 최종 확정되었다. 본 연구에서는 구성된 범 유전체 시퀀스의 효과를 확인하기 위해 H37Rv만을 사용하는 것과 비교하여 정렬과 변이 호출 결과들을 분석하였다.
결론적으로, 이 연구는 본 연구는 인간 및 미코박테리아 결핵균의 참조 게놈과 염기서열들에 대한 더 많은 이해를 제공한다. 또한, 참조 게놈들에서 누락된 부위에 대한 추가 조사의 필요성을 제기하고, 특히 미코박테리아 결핵균의 유전체 데이터를 실제 사례로 활용하여 참조 게놈에서의 차이를 해소할 수 있는 가능성을 보여주고 있다.
DNA sequencing is the pivotal point of mordern biology. To accomplish cost-efficiency, the re-sequencing approaches based on reference genomes are use by the vast majority of sequencing platforms. Because reference genomes play an important role in mapping short reads and detecting several variants on next generation sequencing (NGS), there are reference genomes in several species. For example, in humans, GRCh (human reference genome of the Genome Reference Consortium) has been the reference genome since the Human Genome Project. H37Rv, the most studied strain, has been used as the reference genome in Mycobacterium tuberculosis. It was previously thought that determining individuals genetic variants would require only a single global reference genome. However, there are some skepticism whether reference genomes are truly representative of all individuals in a given species. Many researchers have pointed out the diversity of structural variation among different ethnic or lineage groups and reported novel sequences that are not present in the reference genome but are present in at least a few individuals or strains. In the sequencing process, this could bring about missing or limited information through unmapped reads or incorrect variant calling so on. This study attempts to bridge the gap and identify missed genomic regions of the reference genome in human and Mycobacterium tuberculosis.
In human genome, this study used a highly contiguous ethnic genome assembly (AK1) to complement missing parts in the human reference genome (GRCh38), which consists of genomes from >50 individuals including those with African ancestry. To find the missing regions on GRCh38, this study directly compared the reference genome (GRCh38) with the AK1 and using unmapped reads of fourteen individuals whole genome sequencing data (5 East Asian, 4 European, and 5 African ancestry).
The direct comparison between GRCh38 and AK1 was performed with chain file, which describes a pairwise alignment that allow gaps in both sequences. Another way of using unmapped reads were newly re-aligned to AK1. Each way discovered 3,333 unique genomic regions (size > 200 bp) of AK1 as compared to GRCh38 and 38 estimated missing regions (by ≥ 7 individuals unmapped reads) that did not exist in GRCh38. In using unmapped reads, the average 0.90% of the unmapped reads was newly re-aligned to AK1. Furthermore, the alignment rate for East Asian was 0.95%, which was higher than other ethnic groups.
For further research on the estimated missing regions, which were defined as unique AK1 genomic sequences aligned by seven or more individuals unmapped reads, this study analyzed the sequences with BLASTx to identify the suggested functional roles of the sequences and Repeat Masker to take a look into the repetitive characteristics of the AK1 regions.
In Mycobacterium tuberculosis, this study was performed using another method to complement the missing parts in the reference genome. New pan-genome sequences of Mycobacterium tuberculosis reference genome (H37Rv) were constructed. To build alternative sequences on H37Rv, this study assembled sequences (gap size > 50 bp) of 176 complete genome assemblies and unmapped reads of 724 whole genome sequencing data (de novo assembly). 454 contigs were finalized as pan-genome sequences after quality control. To identify the effects of constructed pan-genome sequences, this study analyzed alignment and variant calling results as compared to using only H37Rv.
Finally, this study provides more understanding for reference genome and sequencing. Also, this study raises the need for further investigations on the missing regions of reference genomes in human and Mycobacterium tuberculosis and illuminates the possibility of bridging the gap in the reference with using genome data of Mycobacterium tuberculosis as a practical example.
Language
eng
URI
https://hdl.handle.net/10371/178198

https://dcollection.snu.ac.kr/common/orgView/000000166773
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share