Browse

Joint Selection of SNPs for Improving Prediction in Genome-wide Association Studies
전장유전체 연관분석에서의 예측력 향상을 위한 단일염기다형성 지표의 복합적 발굴 방법론

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
방서진
Advisor
박태성
Major
자연과학대학 통계학과
Issue Date
2013-02
Publisher
서울대학교 대학원
Keywords
Genome-wide association study (GWAS)Welcome trust case control consortium (WTCCC)bipolar diseasejoint selection via elastic netpermuted p-value (PMP)
Description
학위논문 (석사)-- 서울대학교 대학원 : 통계학과, 2013. 2. 박태성.
Abstract
2003년 완료된 인간게놈프로젝트(human genome project: HGP)는 성공적으로 인간의 유전체 염기서열을 규명하고, 인간의 생명 현상을 결정짓는 유전자의 지도를 성공적으로 작성하였다. 이후 전장유전체를 대상으로 특정 질병과의 관련성을 밝히는 전장유전체 연관분석 (genome-wide association study: GWAS)이 폭발적으로 증가하였다. 특히 정상인과 복합질환이 있는 사람 간에 차이를 보이는 단일염기다형성 (single nucleotide polymorphism: SNP)을 이용한 질병지표 발굴에 대한 연구가 활발하게 이루어지고 있다.
SNP과 같은 유전적 변이는 특정 질병에 복합적으로 영향을 미치는 것으로 여겨진다. SNP이 가지는 영향력을 독립적으로 분석하는 것은 실제 생체 내에서 일어나는 복잡한 유전자 작용을 반영하지 못한다. 그러나 SNP 자료의 방대한 양을 처리함과 동시에 SNP 사이에 존재하는 연관 불균형 (linkage disequilibrium: LD)을 고려하는 것이 쉽지 않기 때문에 대부분의 연구에서 단일 SNP 분석 방법만을 사용하고 있다.
이와 같은 문제점을 해결하기 위해서 기존의 연구는 다음과 같은 다단계 접근 방법을 사용해 왔다. 첫 번째로 독립적인 SNP 분석을 통해 복합질환과 단일한 연관이 있는 SNP을 선별하여 고차원의 SNP 자료를 적절한 수준으로 차원 축소한다. 다음으로 선별된 SNP들을 복합적으로 고려하여, 계수추정 및 변수선택을 동시에 수행하는 벌점화를 통한 축소추정법을 실시한다. 최종적으로 복합 SNP 분석단계에서 계산한 점수 (measure)를 사용하여 선택된 SNP들에 순서를 부여한다. 기존 연구에서는 SNP의 점수 계산 방법으로, 축소추정법의 회귀계수추정 값과 selection stability를 주로 사용하였다. 그러나 축소추정법을 이용한 회귀계수 추정은 편의 (bias)가 있고, selection stability는 한정된 수의 자료에서는 신뢰할만한 결과를 도출하지 못한다는 단점이 있다.
본 논문은 고차원의 유전체 SNP 자료의 복합적인 영향을 고려하여 복합질환의 예측력을 높일 수 있는 SNP 지표의 발굴 방법에 대하여 고찰하였다. 다단계 접근 방법을 이용한 기존 연구에서 제시하였던 다양한 SNP의 점수 계산 방법의 장 •단점을 논의하고, 붓스트랩 (bootstrap)과 순열치환 (permutation)과 같은 리샘플링 (resampling) 방법을 바탕으로 새로운 점수 계산 방법을 제안하였다. 다양한 점수 계산 방법들을 사용하여 발굴한 SNP 지표의 복합질환 예측력을 비교하기 위하여, Wellcome Trust Case Control Consortium (WTCCC) 양극성 장애 (bipolar disease: BD)자료에서 얻어진 4,806명의 표본과 354,022개의 SNP을 사용하였다. Elastic-net 벌점함수를 사용한 다단계 분석을 수행하였고, support vector machine (SVM), random forest (RF), elastic-net (EN), 선형 판별 분석 (linear discriminant analysis :LDA)와 같은 다양한 예측 방법을 사용하였다. 다양한 SNP 점수 계산 방법의 평가 및 비교를 위해 area under the curve (AUC)를 사용하였다. 본 논문에서 제안한 SNP 점수 계산 방법은 단일 SNP 분석의 유의 확률을 이용한 SNP 점수 계산 방법보다 높은 예측력을 보였다. 또한, Elastic-net 벌점함수만을 사용한 변수선택법과 비교하여, 조율모수 λ가 작은 값을 가질 경우에 LDA, EN, SVM 예측 모형에서 보다 높은 예측력을 보이는 SNP을 선택하는 경향이 있음을 확인하였다.
It is of great interest to select single-nucleotide polymorphism (SNP) associated with diseases in genome-wide association studies (GWAS). Since genetic variants affect diseases in multiple ways, the joint analysis of SNPs is needed to understand the full effects of genetic variants. However, since the number of SNPs is large and there exists linkage disequilibrium (LD) among SNPs, it is not easy to identify the joint effects of SNPs on complex traits. Thus, the multi-step approach is commonly used for handling these problems. First, SNPs marginally associated with diseases are selected via single SNP analysis. Next, joint identification of putative SNPs via penalized regularization method is carried out for the pre-selected SNP set. Finally, SNPs from the joint identification step are ordered by a measure which is yielded from the joint analysis. Some current approaches have proposed scoring measures to select causal SNPs such as selection stabilities and effect sizes. In this paper, we discuss some pros and cons of the scoring measures and propose new joint SNP selection measures based on re-sampling methods such as permutation and bootstrap. We illustrate the joint SNP selection based on our measure by using bipolar disorder data from Welcome Trust Case Control Consortium (WTCCC). We demonstrate that the proposed method substantially improves the prediction of disease status compared to other scoring measures.
Language
English
URI
http://hdl.handle.net/10371/131270
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Master's Degree_통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse