Publications

Detailed Information

Bioinformatic approach for identifying and correcting artifacts in diploid genome assemblies : 이배체 유전체 조립 과정에서의 인위적 오류 식별과 교정을 위한 생물정보학적 접근

DC Field Value Language
dc.contributor.advisor김희발-
dc.contributor.author고병준-
dc.date.accessioned2023-11-20T04:30:02Z-
dc.date.available2023-11-20T04:30:02Z-
dc.date.issued2023-
dc.identifier.other000000179553-
dc.identifier.urihttps://hdl.handle.net/10371/196699-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000179553ko_KR
dc.description학위논문(박사) -- 서울대학교대학원 : 농업생명과학대학 농생명공학부(바이오모듈레이션전공), 2023. 8. 김희발.-
dc.description.abstract참조 유전체에 존재하는 조립 오류는 생물학적 해석의 오류로 이어진다. 최근 염기서열 해독 기술의 발전과 더불어 대규모 유전체 프로젝트가 진행중이다. 척추동물 유전체 프로젝트(VGP)의 경우 척추동물 6만6천여종의 염기서열을 해독하는 것을 목표로 한다. 또한, 유전체 해독 시 염기서열 분석 오류와 유전체 조립을 최소화하는 고품질 표준유전체 구축을 추구한다. 최근의 Telomere to Telomere 컨소시엄, Earth Biogenome Project 등 국제 규모 유전체 프로젝트 역시 VGP가 추구하는 고품질 표준유전체 구축의 중요성을 강조하는 등 유전체의 오류를 개선하기 위한 노력이 연구자들 사이에서 활발하다. 제 2장에선 VGP와의 협업을 통해 유전체 조립오류에서 발생하는 허위 복제 오류를 과거 짧은 염기서열 길이를 기반으로 구축된 유전체와 최근의 긴 길이 염기서열 분석기법을 통해 구축된 참조 유전체 내에서 발견하였다. 그 결과, 짧은 길이 기반의 염기서열 분석법에서 수천개에 달하는 허위 복제 유전자를 발견하였다. 또한 이형접합성 및 염기서열 분석 오류가 허위 복제 오류를 발생시키는 중요한 요인으로 작용 한다는 것을 확인하였으며, 이를 통해 향후 참조유전체 구축 시 허위 복제 오류를 감소시키기 위한 방향을 제시하였다. 뿐만 아니라 허위 복제가 포함된 표준유전체를 바탕으로 이루어진 연구사례를 제시하여, 허위 복제 교정의 중요성을 강조하였다. 제 3장에선 VGP 및 Galaxy Project와의 협업을 통해 최근 각광받는 PacBio HiFi 염기서열 분석법의 이점을 허위 복제 및 손실 두가지 측면에서 PacBio CLR 염기서열 분석방법과 비교하였다. 제 4장에선 허위 복제 교정 프로그램을 새롭게 개발하였으며, 가상의 유전체를 생산을 통해 기존 허위 복제 교정 프로그램과의 성능을 비교하였다. 새롭게 개발된 프로그램 Purge mers는 기존의 염기서열 리드 깊이(depth)기반 분석법과 더불어 유전체상의 허위복제 및 손실 여부를 k-mer 단위에서 알 수 있는 K*를 허위 복제 탐색에 이용한다. 그 결과, Purge mers의 성능이 기존의 프로그램보다 뛰어난 몇몇 경우를 발견하였다. 제 5장에선 유전체상의 높은 GC비율에 의해 염기서열 리드에서 계산된 k-mer의 빈도가 적게 측정되는 편향을 보정하는 방법론을 제시하였다. 편향이 제거되지 않은 k-mer 측정결과는 GC비율이 80%이상인 유전체 지역에서 K*가 -1일때의 빈도가 가장 높은 결과를 나타냈다. 반면, 이 연구에서 제시한 편향이 제거된 k-mer 측정결과는 GC비율이 80%이상인 유전체 지역에서 K*가 0일때의 빈도가 가장 높은 결과를 나타냈다. 앞선 연구결과들을 종합하여 정리하자면 이 연구에서는 허위 복제 오류 교정의 중요성을 강조하였으며, 최적화된 염기서열 해독 기법 및 유전체 구축 방법 제시, 프로그램 및 방법론 개발 등을 통해 표준유전체 내 허위 복제 오류 해결방법을 제안하였다.-
dc.description.abstractErrors in genome assembly present in reference genomes can lead to errors in biological interpretation. With recent advancements in DNA sequencing technologies, large-scale genome projects are underway. The Vertebrate Genome Project (VGP), for example, aims to decode the genomes of over 66,000 vertebrate species. This project strives for high-quality reference genome construction by minimizing errors in both base and structure level in the genome assemblies. Other recent international genome projects such as the Telomere to Telomere (T2T) Consortium and the Earth Biogenome Project (EBP) also emphasize the importance of high-quality reference genome construction, highlighting the ongoing efforts among researchers to improve genome quality.
In Chapter 2, through collaboration with VGP, false duplications resulting from assembly errors were identified in the reference genome, which was previously based on short read sequencing data, as well as in the more recent long-read and combination sequencing technologies. Hundreds to thousands of falsely duplicated genes were detected with 4 to 16% of false duplications in the reference genomes made by short read sequencing, but ~2% of false duplications were detected in long read-based reference genome assemblies. Heterozygosity and sequencing error were identified as significant factors contributing to false duplication. The result also showed that several downstream analyses can be significantly disturbed by false duplication. The findings emphasize the importance of developing more advanced assembly methods that effectively separates haplotypes and removes sequencing errors, as well as the need for careful analysis of gene gains.
In Chapter 3, a collaboration with VGP and Galaxy Project allowed for a comparison between the increasingly recognized PacBio High-Fidelity (HiFi) sequencing method and the PacBio Continuous Long Read (CLR) method in terms of false duplications and losses in same individual of zebra finch. K-mer based false duplication, expansion and collapse results indicated that the CLR based assembly exhibited a higher susceptibility to both false duplication and loss. Another approach by genome-wide alignment with read coverage analysis showed that CLR based assembly had more false duplication and loss errors (1.3 and 4%, respectively) than HiFi based assemblies (~0.6 and <1%, respectively).
Chapter 4 introduces a newly developed false duplication correction software, Purge mers, which was compared to existing programs through the generation of virtual genome assemblies. The purge mers, utilizes both read depth coverage and K* to detect false duplications at base-pair level. The performance of purge mers was found to be superior to existing programs when using short read or long read in some cases.
In Chapter 5, a methodology for correcting the bias caused by high GC content in the genome, resulting in underrepresentation of k-mer multiplicities in the read data, was proposed. Uncorrected k-mer measurements revealed the highest frequency of K* at -1 in genomic regions with GC content over 80%. On the other hand, the bias-corrected k-mer measurements presented in this study showed the highest frequency of K* at 0 in genomic regions with GC content over 80%. These results provide confirmation that high GC content inhibits sequencing, and the underestimation of k-mer multiplicities can be recovered by the method suggested in this study.
In summary, the studies emphasize the importance of false duplication error correction. It proposes optimized DNA sequencing techniques, genome assembly methods to mitigate false duplication. Also, I developed a novel program to correct false duplication, and a methodology to recover k-mer multiplicities from GC bias.
-
dc.description.tableofcontentsABSTRACT I
CONTENTS V
LIST OF TABLES VII
LIST OF FIGURES IX
CHAPTER 1. GENERAL INTRODUCTION 1
1.1 Advancing error-free genome assembly 2
1.2 Structural error made by assembly artifacts 3
1.3 Challenges of false duplication 4
CHAPTER 2. WIDESPREAD FALSE GENE GAINS CAUSED BY DUPLICATION ERRORS IN GENOME ASSEMBLIES 7
2.1 Abstract 8
2.2 Introduction 9
2.3 Materials and Methods 13
2.4 Results 29
2.5 Discussion 96
CHAPTER 3. AUTOMATED HIFI-BASED GENOME ASSEMBLIES REVEAL LOWER ASSEMBLY ERRORS THAN CURRENT LONG-READ-BASED ASSEMBLY 100
3.1 Abstract 101
3.2 Introduction 103
3.3 Materials and Methods 106
3.4 Results and Discussion 111
CHAPTER 4. PURGE MERS: A NEW FALSE DUPLICATION CURATION TOOL BASED ON SEQUENCING READ AND K-MERS FOR DIPLOID GENOME ASSEMBLY 121
4.1 Abstract 122
4.2 Introduction 123
4.3 Materials and Methods 126
4.4 Results 137
4.5 Discussion 154
CHAPTER 5. A K-MER COUNTING METHOD MINIMIZING GC BIAS IN SEQUENCING READS 158
5.1 Abstract 159
5.2 Introduction 160
5.3 Materials and Methods 163
5.4 Results and Discussion 168
GENERAL DISCUSSION 174
REFERENCES 177
-
dc.format.extentXI, 215-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject허위 복제-
dc.subject페이징 오류-
dc.subject케이머-
dc.subject유전체 조립 오류-
dc.subject조립 유전체 정제-
dc.subject척추동물유전체프로젝트-
dc.subject.ddc571-
dc.titleBioinformatic approach for identifying and correcting artifacts in diploid genome assemblies-
dc.title.alternative이배체 유전체 조립 과정에서의 인위적 오류 식별과 교정을 위한 생물정보학적 접근-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorKo, Byung June-
dc.contributor.department농업생명과학대학 농생명공학부(바이오모듈레이션전공)-
dc.description.degree박사-
dc.date.awarded2023-08-
dc.identifier.uciI804:11032-000000179553-
dc.identifier.holdings000000000050▲000000000058▲000000179553▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share