Publications

Detailed Information

유전자 수준 변이 부담을 적용한 약물유전자와 질병유전자의 특성 분석

DC Field Value Language
dc.contributor.advisor김주한-
dc.contributor.author박유미-
dc.date.accessioned2020-10-13T04:05:34Z-
dc.date.available2020-10-13T04:05:34Z-
dc.date.issued2020-
dc.identifier.other000000161794-
dc.identifier.urihttps://hdl.handle.net/10371/170769-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000161794ko_KR
dc.description학위논문 (박사) -- 서울대학교 대학원 : 자연과학대학 협동과정 생물정보학전공, 2020. 8. 김주한.-
dc.description.abstract차세대 시퀀싱 기술이 발전함에 따라 전장 유전체에서의 변이 분포를 확인하는 것이 가능해졌다. 전통적인 단일 변이 기반 분석법은 드물게 발견되는 변이에 대한 통계적 파워가 떨어질 뿐만 아니라, 후보 변이가 발견되었다 하더라도 발견되는 모든 변이에 대해 그 기능적 중요도를 체계적으로 평가하기 어렵다는 점에서 변이와 표현형 간 연관 관계를 탐색하는데 한계가 있었다. 이러한 문제를 해결하기 위한 방법 중 하나로 특정 유전자 (혹은 영역)에서 발견된 변이들의 누적 효과를 통합하여 유전자 수준에서 표현형과의 연관 관계를 탐색하는 다양한 접근법이 제안되었다. 그 중, 통계 검정과 인구집단 수준의 유전자 점수는 접근 방법에는 차이가 있지만 유전자와 표현형 간 연관 관계를 탐색한다는 점에서 공통점이 있다. 반면, 유전자 수준의 변이 부담 점수 (GVB, Gene-wise Variant Burden score)는 주로 약물 유전체 분야에서 약물 부작용과의 연관성이 잘 정립된 유전자에서의 환자 개인에 대한 위험도를 예측하는 분석에서 다양하게 활용되었는데, 아직까지 그 유용성에 대해서 체계적으로 평가된 적이 없었다. 본 연구는 약물 유전체 분야 뿐만 아니라 희귀 질환, 복합 질환에서 GVB의 평가적, 탐색적 유용성을 평가하는 것을 목적으로 한다.
이를 위하여, 1000 지놈 프로젝트로 부터 얻은 2,504명의 건강한 사람의 전장 유전체 시퀀싱 데이터와 320명의 소아 백혈병 환자에 대한 엑솜 시퀀싱 데이터가 사용되었다. 모든 단백질 coding 유전자에 대하여, 각 유전자 내에서 발견된 변이의 위해도를 in silico 예측 점수를 통해 평가한 뒤, 유해하다고 판단되는 모든 변이의 효과를 통합하는 유전자 수준 변이 부담 점수를 계산하였다. 소아 급성 림프모구성 백혈병 환자의 6-mercaptopurine (6-MP) 약물 독성 예측에서 유전자 수준 변이 부담 점수의 임상성 유용성을 평가하기 위하여, 소아 백혈병 환자에서 6-MP 약물에 대한 예측 대비 실제 투약 비율 (DIP, dose intensity percentage)을 수집하였다. DIP를 임상적 종점 (clinical endpoint)으로 보고, 수신자 판단 특성 곡선 (Receiver operating characteristic (ROC) curve) 분석을 통해 유전자 수준 변이 부담 점수가 개인에 대한 약물 독성을 얼마나 잘 예측하는지 평가하였다. 민감도, 특이도, 양성 예측도, 음성 예측도, 그리고 정확도를 계산함으로써, 약물 유전체 분야에서 개인 약물 독성 예측에 사용되어온 가장 고전적인 방법인 스타 대립 유전자 기반의 하플로타이핑 방법론 (star allele-based haplotyping method)과 진단 정확도를 비교하였다. 더불어, 약물 부작용 이외에 희귀질환, 복합질환 등 다양한 유전 배경에서 유전자 수준 변이 부담 점수의 유용성을 평가하기 위하여, PharmGKB (The Pharmacogenomics Knowledge Base)와 DrugBank 데이터베이스로 부터 추출한 약물 유전자와 GAD (Genetic Association Database)로 부터 추출한 복합 질환 유전자, 그리고 OMIM (Online Mendelian Inheritance in Man)으로 부터 추출한 희귀질환 유전자를 사용하여 약물유전체 및 질병유전체에서의 유전자 수준 변이 부담 점수의 예측 성능을 평가하였다. 각 유전적 배경 (약물, 희귀, 복합 질환)에서 일곱개의 유전적 특성 (paralog와 singleton의 갯수, per-person mutability, CDS (coding sequence) 길이, PPI (protein-protein interaction) degree, 단백질 복잡도, 그리고 선택적 압력)의 분포 차이를 확인하고, 해당 특성을 반영하여 각 유전적 배경에 최적화 시킨 보정된 유전자 수준의 변이 부담 점수를 제안하였다. 추가로320명의 소아 백혈병 환자에 대한 엑솜 시퀀싱 데이터를 이용하여 NUDT15과 TPMT 이외에 치오퓨린 약물 독성과 연관을 보이는 새로운 유전자 마커를 탐색하고, GVB를 이용하여 새로운 유전자 마커의 단독 효과와 추가 효과를 평가하였다.
소아 백혈병 환자에서 유전자 수준의 변이 부담 점수를 활용한 6-MP 약물에 대한 독성 예측은 기존의 스타 대립 유전자 기반 분자 표현형 방법론과 비슷하거나 더 나은 결과를 보였다 (DIP ≤25 기준 AUCGVB=0.677, AUCstar-allele = 0.645). 유전자 수준 변이 부담 점수의 확장 가능성을 확인하기 위하여 다양한 유전 배경에서 그 성능을 평가해보면, 해당 점수는 약물 유전자 예측에 가장 효과적이었던 반면, 집단 수준의 점수를 제공하는 기존의 유전자 수준 방법론 (GDI, RVIS, 그리고 pLI)들은 희귀 질환 유전자 예측에 가장 효과적이어서 서로 상호 보완적인 역할을 한다는 것을 확인할 수 있었다. 특히 약물 유전자는 높은 paralog 갯수, 가장 낮은 PPI degree와 짧은 CDS 길이를 보였던 반면, 복합질환 유전자는 가장 적은 singleton 갯수, 높은 양성 선택과 per-person mutability, 희귀질환 유전자는 낮은 paralog 갯수와 가장 긴 CDS 길이, 높은 선택적 압력과 낮은 per-person mutability등, 유전적 배경 별로 매우 다른 분자 특성을 보였다. 특징적인 유전적 요소들의 효과를 반영했을 때, 유전자 수준 변이 부담 점수는 증가된 예측 성능을 보였다. 유전자 수준의 점수를 사용하여 새로운 바이오 마커인 CRIM1의 치오퓨린 독성 예측 성능을 평가한 결과, 기존에 잘 정립된 NUDT15과 TPMT에 추가적인 영향은 물론이고 독립적인 영향도 보이는 것으로 확인되었다.
결론적으로, 서로 다른 유전적 배경을 가지는 표현형에는 각 특성을 반영하는 서로 다른 접근법이 필요하며, 유전자 수준 변이 부담 점수는 특히 집단 수준의 점수가 아니라 개개인에 대한 점수를 따로 제공한다는 이점이 있기 때문에 약물에 대한 반응성 차이가 사람 간 유전적 다양성으로 설명되는 약물 유전체 분야에서 그 쓰임이 가장 높을 것으로 판단된다.
-
dc.description.abstractThe advent of next-generation sequencing technologies has empowered researchers with the ability to catalogue and predict the contribution of many different types of clinically relevant genetic variants. The traditional single variant-based analysis is limited since the rarity limits the statistical power of associating rare variants with phenotypes, requiring a large sample size. To alleviate this problem, gene-based (or region-based) approaches that aggregate the impact of multiple variants in a gene (or a region) have been proposed. The recently published Gene-wise Variant Burden (GVB) score, a score that integrates the overall deleterious impacts of multiple variants on a gene in an individual-specific manner, has been previously utilized in the field of pharmacogenetics, but the utility of the score has not been systematically evaluated. In this study, a comprehensive evaluation of the utility of GVB was performed in translating genotype information into phenotype across PGx, complex-disease, and Mendelian-disease genes.
GVB scores were computed and assigned for protein-coding genes for each of the 2504 individual genomes from the 1000 Genomes Project (1KGP) and 320 pediatric acute lymphoblastic leukemia (ALL) patients. To assess the utility of GVB scoring method in quantifying the potential contributing effect of variants on enzymatic activity, we performed a comparison study of the conventional star allele-based haplotyping and GVB scoring methods for predicting the last cycle 6-mercaptopurine (6-MP) dose intensity percentage (DIP) as an indicator for 6-MP intolerance of ALL patients with NUDT15 and/or TPMT deficiency. DIP prediction accuracies of GVB and star allele-based predictions were compared using AUROC (Area Under the Receiver Operating Curve) analysis. To define high-risk DIP groups, specificity, sensitivity, PPV, and NPV was computed under the binary classification model with nine different cutoff levels (i.e., 5%, 10%, 15%, 25%, 35%, 45%, 60%, 80%, 100%). Furthermore, a comprehensive comparison of the accuracy of GVB with the accuracies of the RVIS and GDI was performed in predicting the wide variety of functional gene subcategories using receiver operating characteristics (ROC) curve analysis. Comprehensive genomic characterizations of PGx, complex-disease, and Mendelian-disease genes were performed using the following seven molecular genetic features: number of paralogs, number of singletons, per-person mutability, PPI degree, CDS length, McDonald-Kreitman neutrality index (NI), and protein complexity. A condition-specific score adjustment scheme that could augment the performance by leveraging the genetic knowledge about underlying genetic architectures was suggested.
The computational GVB exhibited as an improved or at least comparable predictor than the empirical star allele-based haplotypes for determining subjects with increased risk of 6-MP intolerance in pediatric ALL patients measured by the last cycle 6-MP DIP (DIP ≤25 AUCGVB=0.677, AUCstar-allele = 0.645). The GVB score is considered to be a powerful gene-level scoring method for the prioritization of pharmacogenes, while the other gene-level scores performed best in prioritizing Mendelian-disease genes. A general outline of genetic condition-dependent analysis scheme, in which optimized strategies can be developed by applying the condition-specific patterns of molecular genetic features, was exhibited. In the exploratory analysis, GVB can be used as an evaluation method which can aggregate the functional variants impact identified in novel candidate genes. The traditional two-gene model (NUDT15 and TPMT) for predicting 6-MP DIP <25% was outperformed by the three-gene model that included CRIM1.
Overall, the GVB score—as a fully individualized and quantitative gene-level scoring system—can improve the ability to prioritize clinically important PGx variants and to understand the genetic architectures of common complex diseases. The findings of the present study suggest that different strategies are necessary depending on different genetic backgrounds for improving personal-genome interpretations in the context of pharmacogenetics and common- and rare-disease phenotypes in the era of personal genomics.
-
dc.description.tableofcontents제1장 서론 15
1.1 통계 테스트 16
1.2 유전자 수준의 점수 기반 시스템 19
1.2.1 인구 집단 기반의 점수 시스템 19
1.2.2 개인화된 점수 시스템 21
1.3 유전자 수준 변이 부담 점수의 최적화 26
1.3.1 변이 수준 점수의 역치 최적화 26
1.3.2 변이 수준 점수 통합 방법 29
제 2장 소아급성 림프모구성 백혈병 환자의 6-MP 약물 독성 예측에서 유전자 수준 변이 부담 점수의 임상적 유용성 평가 31
2.1 연구배경 31
2.2 재료 및 방법론 34
2.2.1 환자군 설정과 임상 데이터 수집 34
2.2.2 유전자 단위의 변이 부담 점수 계산 36
2.2.3 스타 대립 유전자 추론 및 분자 표현형 변환 37
2.2.4 진단적 정확도 예측 38
2.3 결과 39
2.3.1 유전자 단위의 변이 부담 점수와 스타 대립 유전자 기반 방법론 간 연관성 39
2.3.2 유전자 단위의 변이 부담 점수와 스타 대립 유전자 기반 방법론 간 약물 독성 군 예측 성능의 비교 45
2.3.3 유전자 단위의 변이 부담 점수와 스타 대립 유전자 기반 방법론 간 약물 독성 군 예측 정확도의 비교 48
2.4 고찰 50
제 3장 유전자 수준의 변이 부담 점수: 약물, 복합질환, 그리고 희귀질환 연관 유전자에 대한 유전적 특성화 53
3.1 연구배경 53
3.2 재료 및 방법론 57
3.2.1 GVB 계산 57
3.2.2 포괄적인 유전 카테고리에 대한 유전자 목록 수집 58
3.2.3 유전자 특이적인 분자 유전적 특성 60
3.2.4 분자 유전 특성을 사용한 GVB 점수 보정 61
3.3 결과 62
3.3.1 GVB, RVIS, 그리고 GDI 점수의 특징 비교 62
3.3.2다양한 유전적 카테고리에서 GVB 의 예측 성능 평가 64
3.3.3약물, 복합질환, 희귀질환 유전자에 대한 유전적 특성화 71
3.3.4약물, 복합질환, 희귀질환 유전자의 유전적 조성 76
3.4 고찰 80
제 4장 NUDT15과 TPMT에 모두 변이를 가지고 있지 않은 소아 백혈병 환자에서 치오퓨린 연관 유전자의 탐색 88
4.1 연구배경 88
4.2 재료 및 방법론 90
4.2.1 환자군 90
4.2.2 엑솜 시퀀싱과 데이터 분석 91
4.2.3 단일- 그리고 다중 유전자를 사용한 치오퓨린 독성 예측 정확도 93
4.3 결과 94
4.3.1 환자군에 대한 설명 94
4.3.2 NUDT15과 TPMT 이외의 치오퓨린 독성 후보 유전자 97
4.3.3 CRIM1 변이와 치오퓨린 독성 간 연관성 평가 100
4.3.4치오퓨린 독성에 대한 NUDT15, TPMT, 그리고 CRIM1의 복합 유전자 효과 105
4.3.5 치오퓨린 독성에 대한 단일 유전자 효과 107
4.3.6 NUDT15, TPMT, 그리고 CRIM1의 예측 정확도 평가 110
4.4 고찰 116
제 5장 고찰 120
참고문헌 123
영문 초록 131
-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject유전자 점수-
dc.subject약물 유전자-
dc.subject희귀 질환 유전자-
dc.subject복합 질환 유전자-
dc.subject변이 부담-
dc.subjectGene-level scores-
dc.subjectPharmacogenetics-
dc.subjectMendelian-disease-
dc.subjectComplex-disease-
dc.subjectVariant burden-
dc.subject.ddc574.8732-
dc.title유전자 수준 변이 부담을 적용한 약물유전자와 질병유전자의 특성 분석-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.department자연과학대학 협동과정 생물정보학전공-
dc.description.degreeDoctor-
dc.date.awarded2020-08-
dc.identifier.uciI804:11032-000000161794-
dc.identifier.holdings000000000043▲000000000048▲000000161794▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share