Publications

Detailed Information

New Methods for SNV/InDel Calling and Haplotyping from Next Generation Sequencing Data : 차세대 시퀀싱 데이터에 대한 SNV/InDel 호출 및 하플로타이핑의 새로운 접근 방법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이선호

Advisor
박근수
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
variant callingvariant filteringSNV/InDel callinghaplotypingHLA typingsequence analysisnext-generation sequencingphasing issueMHC regionread depth distributionRDscanHLAscan변이 호출변이 필터링SNV/InDels 호출하플로타이핑HLA 타이핑서열 분석차세대 시퀀싱변이의 상 조정 문제MHC 영역리드 깊이 분포
Description
학위논문 (박사) -- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2021. 2. 박근수.
Abstract
차세대 시퀀싱 데이터에 대한 수많은 변이 호출 알고리즘이 개발되어 왔다. 대다수 변이 호출 알고리즘은 신뢰할 수 있지만 추가적인 성능 향상을 위한 여지는 남아있다. 특히, 낮은 리드 깊이를 가지는 데이터에 대한 변이 호출과 체세포 변이 호출은 개선될 여지가 많다.
첫 번째로, 본 논문에서는 위 양성 변이를 제거하여 변이 호출의 정밀도를 개선하는 새로운 알고리즘인 RDscan을 제안한다. RDscan은 잘못 정렬된 리드를 제거하고 리드를 재배치 한 후, 리드 깊이 분포에 기반한 변이의 신뢰도 점수를 계산하여 위 양성 변이를 제거한다. 우리는 최신 변이 호출 알고리즘들을 사용하여 RDscan의 성능을 평가하였다. 1000 게놈 프로젝트와 일루미나의 데이터세트에 대하여 RDscan을 통한 추가적인 변이 필터링은 테스트에 사용된 대부분의 변이 호출 알고리즘의 정확성을 개선시켰다. 생식세포 변이에 대한 호출은 12건의 테스트 중 11건, 체세포 변이 대한 호출은 24건의 테스트 중 21건에서 정확성이 증가되었다. 알려진 골드 스탠다드 변이 세트를 사용하여 각 알고리즘의 파라미터 최적화를 통해 생성된 최적의 변이 세트에 대해서도, RDscan 은 생식세포 변이에 대한 12건 중 5건, 체세포 변이에 대한 24 건 중 21건에서 변이 호출 정확성을 개선하였다.
임상 및 연구에서는 단일 게놈 가닥에 존재하는 변이의 세트 정보 (하플로타이핑)를 필요로 하는 경우가 있다. 특히 인간 백혈구 항원 유전자들에 대한 하플로타이핑은 실제 임상에서 다루는 중요한 문제이다. 기존 연구들은 차세대 시퀀싱 기반 알고리즘이 인간 백혈구 항원 유전자에 대한 하플로타이핑을 수행하기에 적합함을 보여주었다. 하지만, 하플로타이핑의 정확성을 저하시키는 대립 유전자의 상 조정 문제를 해결한 알고리즘은 없다.
두 번째로, 본 논문에서는 차세대 시퀀싱 데이터로부터 인간 백혈구 항원 유전자들에 대한 하플로타이핑을 수행하는 새로운 알고리즘인 HLAscan을 소개한다. HLAscan은 ImMunoGeneTics 프로젝트에서 제공하는 IMGT/HLA 데이터베이스의 인간 백혈구 항원 유전자 서열들에 대해 개인의 유전체 리드를 정렬한다. 그 후, 정렬된 리드의 분포에 기반한 점수를 사용하여 올바른 대립유전자의 상을 결정할 수 있다. HLAscan을 통한 하플로타이핑은1000 게놈 프로젝트와 HapMap 프로젝트의 공식 데이터세트에 대해서 기존의 차세대 시퀀싱 기반 알고리즘들보다 높은 정확성을 보여주었다. 또한 HiSeq X-TEN으로 생성한 아홉 가족의 데이터세트에 대해서, HLAscan을 사용한 하플로타이핑 결과는 96.9%의 정확성을 보였고, 그 중 90× 이상의 높은 리드 깊이를 가지는 데이터세트에 대해서는 100% 정확성을 보였다.
Several tools have been developed for calling variants from next-generation sequencing data. Although they are generally accurate and reliable, most of them have room for improvement, especially in regard to calling variants in datasets with low read depth coverage. In addition, the somatic variants predicted by several somatic variant callers tend to have very low concordance rates.
First, we propose a new tool (RDscan) for improving germline and somatic variant calling in next-generation sequencing data. RDscan removes misaligned reads, repositions reads, and calculates RDscore based on the read depth distribution. With RDscore, RDscan improves the precision of variant callers by removing false variants. When we tested our new tool using the latest variant calling algorithms, accuracy was improved for most of the algorithms. After screening variants with RDscan, calling accuracies increased for germline variants in 11 out of 12 cases and for somatic variants in 21 out of 24 cases. For the best set of variants produced by optimizing the parameters of each algorithm using the known truth sets, RDscan increased the calling accuracies for germline variants in 5 out of 12 cases and for somatic variants in 21 out of 24 cases.
Some applications require information on multiple variants in a single genome strand (haplotyping). In particular, precise haplotyping for human leukocyte antigen genes is of great clinical importance. Several recent studies showed that next-generation sequencing based method is a feasible and promising technique for haplotyping of human leukocyte antigen genes. To date, however, no method with sufficient read depth has completely solved the allele phasing issue.
Second, we developed a new method (HLAscan) for HLA haplotyping using NGS data. HLAscan performs alignment of reads to HLA sequences from human leukocyte antigen (IMGT/HLA) database in the international ImMunoGeneTics project. The distribution of aligned reads was used to calculate a score function to determine correctly phased alleles by progressively removing false-positive alleles. Comparative HLA typing tests using public datasets from the 1000 Genomes Project and the International HapMap Project demonstrated that HLAscan could perform HLA typing more accurately than previously reported NGS-based methods. We also applied HLAscan to a family dataset with various coverage depths generated on the Illumina HiSeq X-TEN platform. HLAscan identified allele types of HLA-A, -B, -C, -DQB1, and -DRB1 with 100% accuracy for sequences at ≥ 90× depth, and the overall accuracy was 96.9%.
Language
eng
URI
https://hdl.handle.net/10371/175346

https://dcollection.snu.ac.kr/common/orgView/000000164308
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share