Publications

Detailed Information

ASSESSMENT PROGRAM FOR SYSTEMATIC ERROR CAUSING PHYLOGENETIC INCONGRUENCE OF GENE MARKERS : 바이오인포매틱스 프로그램을 이용한 유전자 마커 선별 및 계통수 오류 평가 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이정환

Advisor
손현석
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
systematic errorbioinformaticsstandalonephylogenetic reliabilitymultiple sequence alignmentphylogenetic analysisdata quality시스템 오류바이오인포매틱스독립 프로그램계통학적 신뢰성다중서열정렬계통분류학적 분석데이터 퀄리티
Description
학위논문(석사) -- 서울대학교대학원 : 자연과학대학 협동과정 생물정보학전공, 2021.8. 손현석.
Abstract
지속적으로 산출되는 엄청난 양의 생물학적 서열 데이터는 유기체 사이의 진화적 역사와 계통학적 관계(phylogenetic relationship)를 유추할 수 있는 기회를 제공한다. 이제 계통수 구축은 거의 모든 생물학 연구에서 수행되는 과정의 하나가 되었다. 여기서 계통정보학(phyloinformatics)은 계통수 생성 알고리즘과 진화적 모델 개발과 같은 기술적 또는 방법론적 연구를 중심으로 발전되어 왔다. 현재의 계통수 분석은 서열 데이터, 즉 유전적 마커를 이용하여 계통수를 생성함으로써 실제에 가까운 계통수를 추론하는 것을 목표로 한다. 그러나 유전적 마커를 비롯한 데이터의 크기가 기하급수적으로 증가하고 따라오는 계통수 분석의 정확성에 대한 의문이 점차 중요하게 다루어 지기 시작하면서 계통수의 정확성 및 신뢰성을 평가하기 위한 연구가 다수 이루어지고 있는 상황이다. 분자 시스템학 관점에서 계통수에 대한 정확성 평가는 두 가지 갈래로 나누어 접근할 수 있는데, 하나는 진화 조건, 분자데이터의 양과 같은 특정 환경 아래에서 계통 분석 알고리즘이 얼마나 잘 작동하는지를 다루는 것이고, 또 다른 하나는 특정 계통수를 얼마나 신뢰할 수 있는지에 집중하는 것이다. 그리고 데이터셋의 퀄리티 관점에서 신뢰할 만한 계통수를 획득하기 위해 계통수 분석을 수행한 후, 사용한 데이터셋과의 적절성을 평가하는 것도 중요하다. 대규모 데이터를 기본으로 취급하는 최근 계통수 분석에서 확률론적 오류의 가능성은 낮아졌지만, 시스템 오류의 가능성은 오히려 높아졌으므로, 계통수 정확성을 평가 및 개선하기 위해 계통 분석 결과 후에 데이터셋이 가지는 시스템 오류의 근원을 평가하는 것이 매우 중요한 과정이 되었기 때문이다. 이에 본 연구에서는 데이터 퀄리티 관점에서 계통수의 신뢰도 향상을 가져오기 위해 APSE (Assessment Program for Systematic Error, tentative)라는 프로그램을 개발하였다. APSE를 활용하면 분류군 특이적 상대적 구성 빈도 변이(RCFV)와 대칭적 왜곡값(skew)을 산출하여 염기서열의 구성적 편향성에 대한 정보를 얻고, 이를 통해 연구하고자 하는 데이터의 유전적 이질성(heterogeneity) 및 유전적 변이 편향성(mutational bias)을 추정할 수 있다. 뿐만 아니라 다양한 염기 그룹의 빈도, 변이에 의한 다수 치환을 의미하는 포화(saturation)와 공유 결측 데이터(shared missing data) 변수를 통해 시스템 오류를 유발할 수 있는 편향성 정보들을 계산하는 것이 가능하다. 또한, 시스템 성능을 평가하기 위해 다양한 유전자 마커 사이의 모순되는 계통수를 출력하고 있는, 특이적 예시(Terebelliformia, Daphniid, Glires)를 APSE에 적용하여 마커 데이터셋의 시스템 오류 평가와 그에 따라 선별된 마커 계통수의 정확성 추론에 대한 분석이 제대로 수행될 수 있음을 확인하였다. 따라서 향후 APSE는 시스템학적 관점에서 데이터 퀄리티에 집중하여 생성된 계통수가 보다 정확한 결과를 이끌어낼 수 있도록 사용자의 데이터와 계통수 사이의 정확성을 평가하는 역할을 할 것이고, 유전적 마커에 따라 오해의 소지가 있는 계통수가 출력되었을 때, 시스템 오류의 근원에 대한 철저한 분석과 해당 오류의 영향을 받은 데이터가 계통수에 주는 효과를 파악하는 일을 수행할 수 있을 것이라 기대한다.
The steadily increasing volume of biological data with decisive phylogenetic relationship provides unparalleled opportunities in bioinformatics. Phylogenetics based on a large amount of datasets handling an evolutionary history and assigning the placement of taxa in a phylogeny establishes the tree of life. Constructing a phylogeny involving a phylogenetic analysis is implemented in most branches of biology and emphasizing the evolutionary history elucidates the phylogenetical background as a prerequisite interpreting a specific biological system, which is a biologically indispensable process. Due to the advent of computing and sequencing techniques as the phylogenetic approach, phyloinformatics has rapidly advanced at the technical and methodological levels along with phylogenetic reconstruction algorithm and evolutionary models. Unlike the classic approach using morphological data, modern phylogenetic analysis reconstructs a phylogeny using genetic information following the inference of phylogenetic tree from molecular data. Therefore, phylogeneticists have naturally dealt with questions concerning the accuracy of phylogenetic estimation and carried out studies on the reliability of phylogenies. In terms of molecular systematics, the concerns regarding the assessment of phylogenetic accuracy considering specific evolutionary conditions and the amount of molecular data implemented can now be divided into two types: how phylogenetic method works and how reliable it is under certain circumstances. Moreover, in terms of data quality, assessment for suitability of nuclear marker is required before the phylogenetic inference is performed for confident phylogeny. Recently, the probability of stochastic errors in phylogenetic estimation dealing with a large-scale datasets has decreased, while the probability of systematic errors has increased. Thus, before the implementation of phylogenetic reconstruction, the assessment of sources of systematic errors is indispensable for the improvement and estimation of phylogenetic accuracy. Assessment Program for Systematic Error (APSE) developed by this study will plays a key role in assessment between user datasets and phylogenies for improving the results of phylogenetic reconstruction in systematics and will be able to implement an analysis of the effect on data bearing systematic errors in a phylogeny after the misleading phylogenetic results are produced. This study with APSE will serve as the inference of phylogenetic accuracy and the assessment of systematic errors using an unresolved example showing the contradicting topologies between different gene markers in the same diversity group. Furthermore, by selectively grouping the properties of the existing systematic biases provided by the APSE, it proceeds in the direction of proposing a new protocol that can provide the best gene marker among candidate markers for a specific taxon.
Language
eng
URI
https://hdl.handle.net/10371/177452

https://dcollection.snu.ac.kr/common/orgView/000000167169
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share