Publications

Detailed Information

Bioinformatic approach for identifying and correcting artifacts in diploid genome assemblies : 이배체 유전체 조립 과정에서의 인위적 오류 식별과 교정을 위한 생물정보학적 접근

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

고병준

Advisor
김희발
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
허위 복제페이징 오류케이머유전체 조립 오류조립 유전체 정제척추동물유전체프로젝트
Description
학위논문(박사) -- 서울대학교대학원 : 농업생명과학대학 농생명공학부(바이오모듈레이션전공), 2023. 8. 김희발.
Abstract
참조 유전체에 존재하는 조립 오류는 생물학적 해석의 오류로 이어진다. 최근 염기서열 해독 기술의 발전과 더불어 대규모 유전체 프로젝트가 진행중이다. 척추동물 유전체 프로젝트(VGP)의 경우 척추동물 6만6천여종의 염기서열을 해독하는 것을 목표로 한다. 또한, 유전체 해독 시 염기서열 분석 오류와 유전체 조립을 최소화하는 고품질 표준유전체 구축을 추구한다. 최근의 Telomere to Telomere 컨소시엄, Earth Biogenome Project 등 국제 규모 유전체 프로젝트 역시 VGP가 추구하는 고품질 표준유전체 구축의 중요성을 강조하는 등 유전체의 오류를 개선하기 위한 노력이 연구자들 사이에서 활발하다. 제 2장에선 VGP와의 협업을 통해 유전체 조립오류에서 발생하는 허위 복제 오류를 과거 짧은 염기서열 길이를 기반으로 구축된 유전체와 최근의 긴 길이 염기서열 분석기법을 통해 구축된 참조 유전체 내에서 발견하였다. 그 결과, 짧은 길이 기반의 염기서열 분석법에서 수천개에 달하는 허위 복제 유전자를 발견하였다. 또한 이형접합성 및 염기서열 분석 오류가 허위 복제 오류를 발생시키는 중요한 요인으로 작용 한다는 것을 확인하였으며, 이를 통해 향후 참조유전체 구축 시 허위 복제 오류를 감소시키기 위한 방향을 제시하였다. 뿐만 아니라 허위 복제가 포함된 표준유전체를 바탕으로 이루어진 연구사례를 제시하여, 허위 복제 교정의 중요성을 강조하였다. 제 3장에선 VGP 및 Galaxy Project와의 협업을 통해 최근 각광받는 PacBio HiFi 염기서열 분석법의 이점을 허위 복제 및 손실 두가지 측면에서 PacBio CLR 염기서열 분석방법과 비교하였다. 제 4장에선 허위 복제 교정 프로그램을 새롭게 개발하였으며, 가상의 유전체를 생산을 통해 기존 허위 복제 교정 프로그램과의 성능을 비교하였다. 새롭게 개발된 프로그램 Purge mers는 기존의 염기서열 리드 깊이(depth)기반 분석법과 더불어 유전체상의 허위복제 및 손실 여부를 k-mer 단위에서 알 수 있는 K*를 허위 복제 탐색에 이용한다. 그 결과, Purge mers의 성능이 기존의 프로그램보다 뛰어난 몇몇 경우를 발견하였다. 제 5장에선 유전체상의 높은 GC비율에 의해 염기서열 리드에서 계산된 k-mer의 빈도가 적게 측정되는 편향을 보정하는 방법론을 제시하였다. 편향이 제거되지 않은 k-mer 측정결과는 GC비율이 80%이상인 유전체 지역에서 K*가 -1일때의 빈도가 가장 높은 결과를 나타냈다. 반면, 이 연구에서 제시한 편향이 제거된 k-mer 측정결과는 GC비율이 80%이상인 유전체 지역에서 K*가 0일때의 빈도가 가장 높은 결과를 나타냈다. 앞선 연구결과들을 종합하여 정리하자면 이 연구에서는 허위 복제 오류 교정의 중요성을 강조하였으며, 최적화된 염기서열 해독 기법 및 유전체 구축 방법 제시, 프로그램 및 방법론 개발 등을 통해 표준유전체 내 허위 복제 오류 해결방법을 제안하였다.
Errors in genome assembly present in reference genomes can lead to errors in biological interpretation. With recent advancements in DNA sequencing technologies, large-scale genome projects are underway. The Vertebrate Genome Project (VGP), for example, aims to decode the genomes of over 66,000 vertebrate species. This project strives for high-quality reference genome construction by minimizing errors in both base and structure level in the genome assemblies. Other recent international genome projects such as the Telomere to Telomere (T2T) Consortium and the Earth Biogenome Project (EBP) also emphasize the importance of high-quality reference genome construction, highlighting the ongoing efforts among researchers to improve genome quality.
In Chapter 2, through collaboration with VGP, false duplications resulting from assembly errors were identified in the reference genome, which was previously based on short read sequencing data, as well as in the more recent long-read and combination sequencing technologies. Hundreds to thousands of falsely duplicated genes were detected with 4 to 16% of false duplications in the reference genomes made by short read sequencing, but ~2% of false duplications were detected in long read-based reference genome assemblies. Heterozygosity and sequencing error were identified as significant factors contributing to false duplication. The result also showed that several downstream analyses can be significantly disturbed by false duplication. The findings emphasize the importance of developing more advanced assembly methods that effectively separates haplotypes and removes sequencing errors, as well as the need for careful analysis of gene gains.
In Chapter 3, a collaboration with VGP and Galaxy Project allowed for a comparison between the increasingly recognized PacBio High-Fidelity (HiFi) sequencing method and the PacBio Continuous Long Read (CLR) method in terms of false duplications and losses in same individual of zebra finch. K-mer based false duplication, expansion and collapse results indicated that the CLR based assembly exhibited a higher susceptibility to both false duplication and loss. Another approach by genome-wide alignment with read coverage analysis showed that CLR based assembly had more false duplication and loss errors (1.3 and 4%, respectively) than HiFi based assemblies (~0.6 and <1%, respectively).
Chapter 4 introduces a newly developed false duplication correction software, Purge mers, which was compared to existing programs through the generation of virtual genome assemblies. The purge mers, utilizes both read depth coverage and K* to detect false duplications at base-pair level. The performance of purge mers was found to be superior to existing programs when using short read or long read in some cases.
In Chapter 5, a methodology for correcting the bias caused by high GC content in the genome, resulting in underrepresentation of k-mer multiplicities in the read data, was proposed. Uncorrected k-mer measurements revealed the highest frequency of K* at -1 in genomic regions with GC content over 80%. On the other hand, the bias-corrected k-mer measurements presented in this study showed the highest frequency of K* at 0 in genomic regions with GC content over 80%. These results provide confirmation that high GC content inhibits sequencing, and the underestimation of k-mer multiplicities can be recovered by the method suggested in this study.
In summary, the studies emphasize the importance of false duplication error correction. It proposes optimized DNA sequencing techniques, genome assembly methods to mitigate false duplication. Also, I developed a novel program to correct false duplication, and a methodology to recover k-mer multiplicities from GC bias.
Language
eng
URI
https://hdl.handle.net/10371/196699

https://dcollection.snu.ac.kr/common/orgView/000000179553
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share