Publications

Detailed Information

Statistical Method Development for Genetic Association Analyses of Dichotomous Phenotypes with Related Samples and its Application to Genetic Studies : 종속 표본에 대한 이분형 표현형의 유전체 연관성 분석 방법의 개발 및 유전자 데이터에의 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김원지

Advisor
원성호
Major
자연과학대학 협동과정 생물정보학전공
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (박사)-- 서울대학교 대학원 : 자연과학대학 협동과정 생물정보학전공, 2019. 2. 원성호.
Abstract
Recent improvements in sequencing technology have enabled the investigation of so-called missing heritability, and a large number of affected subjects have been sequenced in order to detect significant associations between human diseases and genetic variants. However, the cost of genome sequencing is still high, and a statistically powerful strategy for selecting informative subjects would be useful.

Numerous methods for estimating heritability of dichotomous phenotypes have been proposed. However, unlike quantitative phenotypes, heritability estimation for dichotomous phenotypes is computationally and statistically complex, and the use of heritability is infrequent. In particular, heritability estimates often suffer from substantial bias due to sampling scheme of family-based study. In family-based study, family members are often brought into a study via affected proband and therefore a proportion of affected relatives is larger than population prevalence. This bias refers to the ascertainment bias but there have been no much studies in adjusting method of ascertainment bias for heritability of dichotomous trait.

In this study, I propose a new statistical method for selecting cases and controls for sequencing studies based on disease family history in terms of improvement in statistical power of genetic association studies. I assume that disease status is determined by unobserved liability score. The liability threshold model assumes dichotomous phenotypes are determined by unobserved latent variables that are normally distributed, and our method consists of two steps: first, the conditional means of liability are estimated given the individuals disease status and those of their relatives with the liability threshold model, and second, the informative subjects are selected with the estimated conditional means. Our simulation studies showed that statistical power is substantially affected by the subject selection strategy chosen, and power is maximized when affected (unaffected) subjects with high (low) risks are selected as cases (controls). The proposed method was successfully applied to genome-wide association studies for type-2 diabetes, and our analysis results reveal the practical value of the proposed methods.

In addition, I developed a statistical method to estimate heritability of dichotomous phenotypes using a liability threshold model in the context of ascertained family-based samples. This model can be applied to general pedigree data. The proposed methods were applied to simulated data and Korean type-2 diabetes family-based samples, and the accuracy of estimates provided by the experimental methods was compared with that of established methods.
최근 유전자 시퀀싱 기술의 발전은 질병을 가진 인간의 유전정보를 대량으로 얻어내는 것을 가능하게 하였으며 이를 통하여 인간의 질병과 유전적 변이 사이의 연관성을 밝혀낼 수 있었다. 그러나 시퀀싱 기술의 발전으로 비용이 현저히 낮아졌다고 할지라도 유전정보를 얻는데 필요한 비용은 결코 저렴하지 않으며, 제한된 비용에서 최대의 효율을 끌어낼 수 있는 분석 대상을 선별하는 과정은 매우 중요하다. 한편, 이분형 표현형의 유전율을 추정하는 수많은 방법이 제안되었지만 연속형 표현형의 유전율 추정과는 달리 계산적으로 또 통계적으로 매우 복잡하여 제한적으로 이용되곤 하였다.

이에 본 논문에서는, 전장유전체연관성분석의 통계적 검정력을 향상시키기 위하여 유전자 시퀀싱을 함에 있어 가족력을 바탕으로 사례군과 대조군을 선별하는 새로운 통계적 방법을 개발하였다. 질병 모형은 관측되지 않은 연속형 변수에 의해 결정된다고 가정하는데, 이 연속형 변수가 질병 고유의 한계점보다 큰 사람은 질병을 얻게 된다. 이 연속형 변수는 책임점수(Liability) 라고 일컫고 이 질병 모형을 책임한계모형(Liability threshold model)이라고 부른다. 이 질병 모형을 바탕으로 본 연구의 방법은 다음의 두 단계로 이루어져 있다. 첫째로, 각 가족 별로 가족들의 질병력이 주어졌을 때의 책임점수의 조건부평균을 계산한다. 그 다음으로 이렇게 구해진 조건부평균을 바탕으로 사례군과 대조군을 선별한다. 모의실험을 통하여 전장유전체연관성분석의 통계적 검정력은 어떻게 사례군과 대조군을 선별하는지에 따라서 중대한 영향을 받고, 조건부평균이 큰 질병군을 사례군으로, 작은 정상군을 대조군으로 선별하였을 때 가장 높은 것을 확인하였다. 이 방법은 제 2형 당뇨의 유전체 연관성 분석에 적용되었고, 무작위로 분석대상을 추출하였을 때와 결과와 비교하였을 때, 훨씬 더 향상된 것을 확인할 수 있었다.

이 방법과 더불어, 나는 이분형 표현형의 유전율 추정방법을 개발하였다. 이 방법은 가족력을 바탕으로 추정이 되고, 가계도의 구조에 구애 받지 않는다. 특히 이 방법은 무작위로 선별된 가족에 대한 추정 뿐 아니라, proband의 질병력으로 인하여 가족이 분석에 참여하게 된 경우에 대한 추정도 가능하다는 장점을 가지고 있다. 다양한 모의실험을 통하여 이 방법의 정확성을 평가하였으며, 기 개발된 연구의 결과와 비교를 통하여 추정치의 정확성의 향상을 확인할 수 있었다. 또한 제 2형 당뇨의 한국인 가계도 데이터에 본 방법을 적용하여 유전율을 평가하였다.
Language
eng
URI
https://hdl.handle.net/10371/152950
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share