Publications

Detailed Information

Next-generation sequencing error validation method for rare variant detection : 매우 낮은 발생률의 변이 분석을 위한 차세대 염기서열 분석 오류 검증 방법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

염희란

Advisor
권성훈
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
Next-generation sequencingVariant frequencySequencing errorPCR-induced errorlaser차세대 염기서열 분석분석 오류 검증액체 생검
Description
학위논문 (박사) -- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2020. 8. 권성훈.
Abstract
The advent of next-generation sequencing (NGS) has accelerated biomedical research by enabling the high-throughput analysis of DNA sequences at a very low cost. However, NGS has limitations in detecting rare-frequency variants (< 1%) because of high sequencing errors (> 0.1~1%). NGS errors should be filtered out for accurate analysis. Especially the liquid biopsy, which is non-invasive method to analyze cancer instead of tumor tissue biopsy, required highly accuracy of massively parallel sequencing. For the liquid biopsy analysis, the circulating tumor DNA (ctDNA) should be detected however ctDNA from tumor cell was buried in the major population of cell-free DNA which is come from normal cells. Usually the variant frequency of the ctDNA is lower than 1% for the stage 1 patient or the cancer patient after surgery. In this regard, the NGS error should be validated to distinguish true variant of the DNA sample .Accordingly, several method have been developed depending on molecular barcoding, which uses unique sequence for each DNA molecules by addition to the end of the DNA. Using the molecular barcodes, each molecules can be identified after NGS preparation including PCR amplification. Also, the NGS error can be filtered out by comparing read replicates among those with the same barcodes However, the barcode-based methods are cost-prohibitive, especially for studying a few number (< 100) of mutation positions with rare variant frequency (< 0.1 %) such as researches for liquid biopsy, and prenatal test. This is because every barcoded DNA strands should be read 10 times although only a few position mutations is of interest.
Also, since each sequencing method (for e.g. cyclic reversible termination (Illumina) or single-nucleotide addition (Roche 454)) can introduce the same type of NGS error (such as indel or substitution), orthogonal validation of NGS error using different sequencing methods, is needed. Previous studies have used Sanger sequencing for orthogonal validation that involves high cost.
Here, I present a cost-effective NGS error validation method in a barcode-free manner. By physically extracting and individually amplifying the DNA clones of erroneous reads, I distinguish true variants of frequency > 0.003% from the systematic NGS error and selectively validate NGS error after NGS. This method can selectively analyze erroneous reads of interest after NGS run in barcode-free manner. Therefore, I were able to reduce sequencing cost substantially (at least ten times less costly in comparison to barcode-based methods) through the selective analysis of rare variants, without the requirement for redundant barcoding reads. With this method, I achieve a PCR-induced error rate of 2.5×10−6 per base per doubling event, using 10 times less sequencing reads compared to those from previous studies.
Also, the previous studies have reported that trimming low-quality NGS reads based on quality score can result in the removal of a few reads of true variants, thus losing critical information from the dataset. This method offers the advantage of analyzing all variants regardless of quality control data trimming, with the possibility to preserve all information in the raw NGS result. I believe that this method can be utilized in scientific fields studying rare variants from samples of high diversity, such as metagenomics and immune profiling.
For the application, I validated true variant of the circulating tumor DNA extracted from the patient who was diagnosed as stage 2 breast cancer. The variant was detected in PIK3CA gene after NGS error validation with this method.
In addition, this method have potential that NGS error of single-nucleotide addition sequencing can be verified orthogonally using another NGS platform of cyclic reversible termination, thus providing a high-throughput, yet cost-effective methodology.
약 15년 전인 2003년에 인간 유전체 분석이 4조원이라는 천문학적인 비용을 들여 완성되었다. 그러나 2006년에 등장한 차세대 염기서열 분석 (Next Generation Sequencing, NGS) 기술을 시작으로 한 염기서열 분석 기기의 비약적인 발전은 현재 우리가 현재 우리가 100만원에 인간 유전체를 전부 분석할 수 있는 시대에 살 수 있게 해 주었다. 이는 기존 엄청난 분석 비용 때문에 제한적이었던 생명공학, 의학, 약학 등의 생물학적 연구에 혁명적인 발전을 가져오게 하였고, 오늘날에는 임상에서 질병의 진단과 처방을 위해서 사용되기 위한 단계에 있다.
그러나 NGS 분석이 임상에서 쓰이기에 대두되고 있는 문제는 높은 오류율로, 염기서열을 잘못 읽는 경우가 많다는 것이다. 이 문제는 특히 암 조기진단을 위한 DNA 변이 분석에 있어서 치명적이다. 암 발생 초기에는 일반세포에 비해서 매우 낮은 비율 (< 0.1%) 로 암세포가 존재하는데 비록 적은 비율로 존재할 지라도 시간이 지날수록 매우 왕성하게 분열하여 생체 내 조직을 파괴하기 떄문에 조기에 이 암세포들을 발견하는 것이 중요하다. 그러나 현재는 NGS의 높은 오류율 (> 0.1%) 로 인하여 낮은 변이율의 DNA 변이 분석을 해야하는 경우, NGS 분석결과에서 NGS 분석 오류와 DNA 변이의 구별이 불가능한 실정이다. 따라서, 낮은 변이율의 DNA 변이를 감지하기 위해서는 NGS 오류를 검증할 수 있는 기술이 필요하다. 이러한 NGS분석의 높은 오류율은 암 조기진단 이외에도 산모 내 태아 유전자 검사 (비침습성 산전 검사), 장기 이식 거부반응 검사 등과 같이 낮은 비율의 DNA 변이를 검사해야하는 경우에 걸림돌이 되고 있다.
이를 해결하기 위하여 NGS의 오류를 검증할 수 있는 기술을 개발하였다. 기술의 핵심은 NGS 오류가 염기서열 분석과정에서 DNA에 변이가 있는 것이 아니라 광학적 감지에 오류가 있는 것임을 착안한 것이다. 차세대 염기서열분석은 각 염기 (A, T, G, C) 에 빛을 내는 물질을 달아 광학적으로 감지해 내는 원리인데, 이 때에 광학적 감지 오류로 인하여 마치 돌연변이가 있는 것처럼 분석하게 되는 것이다. 이 원리를 바탕으로 NGS 분석에서 오류로 읽힌 DNA 분자들만을 레이저로 추출하여 복제 후에 NGS 분석 결과와 독립적으로 재분석하고자 하였다. 그 결과 NGS 분석결과에서는 DNA 변이로 분석되었으나 실질적으로는 NGS의 분석과정에서 생긴 광학적 감지 오류임을 밝힐 수 있었다. 본 방법을 통해 NGS 광학적 감지 오류를 정확하게 구별 해 냄으로써 최종적으로는 0.003%의 변이율을 가지는 DNA 변이까지 NGS 분석이 가능함을 보였다.
또한, 본 방법은 기존 NGS 오류를 검증하고자 하는 접근에서 벗어난 새로운 방법으로, NGS 기기 자체에서 정해지는 품질 점수 (Q-score)에 의존하는 기존 검증방법의 한계점을 극복하였다. 이 품질 점수는 NGS 기기 자체의 알고리즘에 의해 결정되는 것으로 NGS의 근본적인 오류를 검증하기에는 한계를 가진다. 하지만 본 방법은 레이저로 추출해 낸 DNA 분자를 다른 염기서열 분석 기기로 재분석할 수 있게 함으로써 염기서열 분석 품질 점수에 의존하지 않고 NGS 오류를 검증할 수 있다.
본 오류 검증방법을 통하여 실제 암환자의 혈액 내의 종양 유래 DNA를 분석함으로써 임상에 적용가능한지에 대한 실험을 검증하였다. 해당 환자는 유방암 2기의 환자로서 luminal A type의 subtype으로 진단된 환자였다. 따라서 환자의 암 특이적 변이를 확인하기 위하여 조직과 혈액에서 각각 NGS 분석을 실시하였다. 그 결과 조직 분석에서는 인트론 영역에서만 변이가 발견되었으며 따라서 유전자와 관련된 종양 특이적 변이는 발견되지 않았다. 혈액 분석을 위해서는, 혈액 10ml을 추출하여 플라즈마 분리 후 DNA만을 추출하였으며, 환자의 유방암 subtype인 PIK3CA 유전자에 대하여 변이를 분석하고자 하였다. 이를 위해 해당 유전자 특이적인 프라이머를 디자인 하여 PCR 증폭을 통해 샘플을 준비하였다. 해당 PCR 증폭물을 NGS 분석하였으며 그 결과 오류 검증 전에는 PIK3CA 유전자 염기서열 중 A가 반복되는 부분에 variant calling이 많이 발생하는 것을 확인하였으며, 암 특이적인 변이에 해당하는 염기서열 위치에서는 상대적으로 적은 개수의 variant calling이 나타난 것을 관찰하였다. 따라서 본 NGS 오류 검증방법으로 관심있는 영역인, PIK3CA의 암 특이적 변이 위치에 발생한 variant calling에 대하여 NGS 오류를 검증하고자 했다. 암 특이적 변이 위치에서는 총 2개의 variant가 calling 되었으며, 이에 해당하는 DNA 클론을 NGS 기판으로부터 분리하여 PCR 증폭 후 재분석 해보았다. 그 결과 해당 위치에서는 NGS 오류 없이 모두 실제 변이였음을 검증할 수 있었다.
Language
eng
URI
https://hdl.handle.net/10371/169255

http://dcollection.snu.ac.kr/common/orgView/000000163293
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share