Publications

Detailed Information

HisCoM-PCA: Hierarchical structural Component Model for Pathway analysis of Common vAriants : 계층적 구조 모형을 이용한 common variants의 패스웨이 분석

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Nan Jiang

Advisor
박태성
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
common variantsGenome-wide association studyhierarchical componentspathway analysis
Description
학위논문(석사)--서울대학교 대학원 :자연과학대학 협동과정 생물정보학전공,2019. 8. 박태성.
Abstract
전장 유전체 상관성 분석 연구 (Genome-Wide Association Study, GWAS)에서 이미 많은 통계 방법을 이용하여 표현형과 관련된 대립유전자 빈도가 비교적 큰 변이(common variant)를 발굴 했다. 그러나 발굴된 통계적으로 유의미한 변이들로 추정된 유전력의 일부만 설명할 수 있다. 이러한 유전적 결실 (missing heritability) 을 해결하기 위하여 유전자(gene) 기반 및 패스웨이(pathway) 기반한 연구가 많이 진행되고 있고 GWAS 데이터를 이용하여 생물학적 기작 및 관련된 패스웨이를 찾았다. 하지만 사용된 많은 방법들은 유정자 간 및 패스웨이 간의 상호 관계를 고려하지 않았다. 본 연구에서는 유전자 간 및 패스웨이 간의 상호 관계를 고려하는 계층적 구조 모형 기반으로 GWAS 데이터를 이용하는 새로운 패스웨이 기반 분석 방법을 개발 했음. 이 방법의 이름은 HisCoM-PCA(Hierarchical structural Component Model for Pathway analysis of Common vAriants)이다. HisCoM-PCA는 우선 동일한 유전자에 속하는 common variants를 한 통계량으로 요약하고, 계산된 통계량을 이용하여 유전자 기반 분석과 패스웨이 기반 분석을 릿지 회귀분석 방법을 통하여 동시에 진행한다. 그리고 순열검정법(permutation test)을 통해서 유전자와 패스웨이의 유의성 검정은 진행 한다. 본 연구에서 GAW17 시뮬레이션 데이터를 이용하여 이진형 표현형과 연속형 표현형에 대한 시뮬레이션을 통해 HisCoM-PCA는 제 I 형 오류를 잘 통제하고 여러 가지 방법보다 더 높은 검정력을 가지고 있는 것으로 확인 했다. 그리고 HisCoM-PCA를 한국인 유전체 분석사업(KARE) 자료에 적용하여 4가지 인체 표현형: (1) 2형 당뇨병; (2) 고혈압; (3) 수축기 혈압, (4) 이완기 혈압에 대하여 분석 했을 때, 분석 결과를 통하여 HisCoM-PCA는 통계적으로 유의미하고 생물적인 의미 있는 패스웨이를 발굴할 수 있는 것으로 확인 됐다.
Genome-wide association studies (GWAS) have been widely used in identifying phenotype-related genetic variants by many statistical methods, such as logistic regression and linear regression. However, the identified SNPs with stringent statistical significance just explain a small portion of the overall estimated genetic heritability. To address this missing heritability issue, gene-based and pathway-based analysis have been developed in many studies. The biological mechanisms and some related pathways have been reported using pathway-based methods in GWAS datasets. However, many of these methods often neglecting the correlation between genes and between pathways. Here, we construct a hierarchical component model with considering of the correlation existing both between genes and between pathways. Based on this model, we propose a novel pathway analysis method for GWAS datasets, named Hierarchical structural Component Model for Pathway analysis of Common vAriants (HisCoM-PCA). HisCoM-PCA first summaries the common variants in each gene into the gene-level statistics and then analyzes all pathways simultaneously by ridge-type penalization on both gene and pathway effects on the phenotype. The statistical significance of the gene and pathway coefficients can be examined by permutation tests. Through simulation study for both binary and continuous phenotypes using GAW17 simulation dataset, HisCoM-PCA controlled type I error well and showed a higher empirical power than several comparison methods. In addition, we applied our method to SNP chip dataset of KARE for four human physiologic traits: (1) type 2 diabetes; (2) hypertension; (3) systolic blood pressure; and (4) diastolic blood pressure. Those results showed that HisCoM-PCA could successfully identify signal pathways with superior statistical and biological significance. Our approach has an advantage of providing an intuitive biological interpretation for the association between common variants and phenotypes through the pathway information.
Language
eng
URI
https://hdl.handle.net/10371/161673

http://dcollection.snu.ac.kr/common/orgView/000000158187
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share