Publications

Detailed Information

Bioinformatic approaches to understand macroevolution among different vertebrate lineages : 척추동물아문 내 다른 계통 간 대진화를 이해하기 위한 생물정보학적 접근

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이철

Advisor
김희발
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
ReferencegenomeassemblyVertebrateGenomesProjectFalsegenelossesFalsegenegainsApomorphicevolutionConvergentevolution
Description
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 협동과정 생물정보학전공, 2022. 8. 김희발.
Abstract
생물정보학은 디지털화된 유전서열정보를 토대로 다양한 생명현상의 원리를 규명하고 이를 활용해 인류의 삶의 질을 향상하는 것을 목적으로 할 것이다. 생물정보학적 연구는 각 종을 대표하는 표준유전체 구축으로 일반적으로 시작되고 미소 혹은 대진화에 대한 후속 연구를 진행한다. 비록 짧은 단편 해독 기술이 유전체 시대를 열었지만, 짧은 단편의 조립은 낮은 연결성이나 오류가 포함된 유전자 주석 등의 심각한 문제들을 가진다. 긴 단편 해독 기술은 염색체 수준의 주석 (scaffolds)에 필수적인 보다 긴 컨티그 (contig) 조립을 생산할 수 있다. 짧은 단편에서 긴 단편으로 변화하는 페러다임에 발 맞추어, 본 논문은 표준유전체 구축에서 비교유전체 분석까지 이어지는 일련의 생물정보학적 분석에 대한 집약적 연구를 수행했으며, 이는 다양한 척추동물 종들의 대진화를 이해하는 것이 목적이다.
제 1장에서는 연구의 일반적인 배경지식을 정리하였다. 첫째로, 염색체 수준의 주석을 달성한 표준유전체 구축의 페러다임 변화를 설명했다. 다음으로, 특이적 형질에 관련된 분자 진화를 규명하는 비교유전체 분석 방법 및 사례를 정리했다.
제 2장에서는 표준유전체를 구축한 사례로서, 대한민국의 고유종인 큰볏말뚝망둥어의 염색체 수준 표준유전체를 구축했다. 척추동물 유전체 프로젝트와 국제 협력을 통해 4가지 최신 유전체 해독기술들 (Pacbio CLR, 10X Genomics linked reads, Bionano optical mapping, 그리고 Arima Genomics Hi-C)을 활용하여, 기존 표준유전체와 비교해 연결성 (continuity, Scaffold N50 기준)이 약 100배 향상되고 총 25개의 염색체를 가진 고품질 표준유전체를 완성했다. 또한, Pacbio Isoseq전사체 데이터를 유전자 주석에 활용하여 총 24,744개의 유전자를 발굴했다.
제 3장에서는 표준유전체 품질 평가 방법과 비교유전체학적 분석을 접목한 사례로서, 분화 시기가 오래된 종 간에도 BUSCO 유전자를 활용해 염색체 수준의 진화 양상을 탐색하는 방법과 척추동물 내에서 사례를 제시했다. 또한, 포유류, 조류, 어류 등 다양한 척추동물의 표준유전체에서 후속 분석 상의 문제를 야기하는 허위 소실 및 중복 오류를 탐색하는 방법과 사례를 제시하고 발생원인을 밝혔다.
제 4장에서는 기존의 비교유전체학적 분석을 적용한 사례로서, 실러캔스를 포함하는 육기아강 단계통 파생적 진화에 대한 분석을 통해 육상 적응 및 사지 출현의 분자 기작을 규명했다.
제 5장에서는 새로운 비교유전체학적 분석을 적용한 사례로서, 발성학습 조류 및 대조군 각각의 다계통 수렴 진화에 대한 분석을 통해 아미노산 수렴의 진화적 법칙을 제안하고 발성 학습에 연관된 후보 유전자를 발굴했다.
이러한 표준유전체 구축에서부터 비교유전체 분석으로 이어지는 생물정보학적 접근을 통해 규명된 주요 연구결과 중에, 염색체 상 텔로미어 서열 분포 및 아미노산 수렴 진화의 원리는 척추동물 외에 다른 분류 군에서도 비교될 기준이 될 수 있을 것으로 기대된다. 또한, 사지 발달 및 발성 학습에 연관된 후보 유전자를 발굴한 비교유전체학적 접근법은 전 세계 다양한 생물들의 다양한 유용 형질에 연관된 유용 유전자를 발굴하는데 활용될 수 있을 것이다.
Bioinformatics aims to improve the quality of life of mankind by decoding molecular mechanisms of biological phenomena based on digitalized sequence information of various species. It generally begins with a construction of reference genomes representing each species and moves on downstream analyses for microevolution within species and macroevolutions between species. Although short-read sequencing technologies initiated genomics era, the short read assemblies had critical problems for lower continuity and erroneous gene annotations causing mis-interpretations. Long read sequencing technologies improved assembly continuities fundamental to chromosome-level scaffolds and corrected false annotations. Following up the paradigm shift from short-reads to long-reads, here, I performed a series of bioinformatic analyses to understand macroevolutions of various vertebrate species from reference genome construction to comparative genome approaches.
Chapter 1 summarized the general background of this dissertation. First, it described the paradigm shift of the reference genome constructions achieving chromosome-scale scaffolds. Next, comparative genomic approaches for specific traits were summarized.
Chapter 2, as a case of constructing a reference genome, illuminated a chromosome-level reference genome of giant-fin mudskipper, an endemic species in republic of Korea. Based on the four latest genome sequencing technologies (Pacbio CLR, 10X Genomics linked reads, Bionano optical mapping, and Arima Genomics Hi-C) in the international cooperation with the Vertebrate genomes project, it improved the 100-fold longer continuity (Scaffold N50) with a total of 25 chromosomal-level scaffolds compared to that of the previous genome. In addition, a total of 24,744 genes were annotated with Pacbio Isoseq transcriptome data.
In Chapter 3, as a case of combining the reference genome quality evaluation method and comparative genomic analyses, a method was developed to explore the chromosomal evolution between vertebrate species in distant lineages focusing on the BUSCO genes. In addition, it suggested methods for detecting false loss and duplication errors that cause problems in downstream analyses in reference genomes of various vertebrate lineages, such as, mammals, birds, and fishes, and revealed how those kinds of errors occurred.
In Chapter 4, as a case using the existing comparative genomic approaches, the molecular mechanisms of terrestrial adaptation and limb emergence were identified by applying the series of analyses for apormorphic evolution of the monophyletic lineage of lobed-fin fishes including coelacanths and human.
In Chapter 5, as a case developing a new comparative genomic approach, the rule of amino acid convergence was proposed and candidate genes related to vocal learning were discovered through the multi-omic analyses for convergent evolution between polyphyletic lineages of vocal learning bird and control groups.
Among the major findings of this study based on the bioinformatics approaches from the reference genome construction to comparative genomic researches, telomere sequence distributions on chromosomes and the principles of amino acid convergence would be a standard for comparisons in various lineages. In addition, the systemized comparative genomic approaches that identified candidate genes involved in limb development and vocal learning may be utilized to discover new candidate genes associated with various useful traits of living things in the world.
Language
eng
URI
https://hdl.handle.net/10371/188611

https://dcollection.snu.ac.kr/common/orgView/000000173664
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share