Publications

Detailed Information

Linear mixed models for genome-wide association study and phenotype prediction : 전장유전체연관분석과 표현형 예측 연구를 위한 선형혼합모형

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

원소영

Advisor
김희발
Major
농업생명과학대학 농생명공학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 농업생명과학대학 농생명공학부, 2019. 2. 김희발.
Abstract
With the advance of sequencing and genotyping technologies, a large amount of genomic data has been accumulated and is available for biological studies. Along with the development of statistical models and computational capabilities, sizable genomic data can be analyzed thoroughly. Processing large genomic data via statistical computation enables discerning the relationship between genotypes and phenotypes.
In this thesis, the main concern was how differences in genotypes are related to phenotypes. I conducted genome-wide association study to discover genetic variants correlated with phenotypes. Also, I constructed prediction models to precisely estimate phenotypes from genotypes. In the studies, various linear mixed models were applied to calculate the effects of genetic variants.
In chapter 2, genome-wide association study on intramuscular fat content of pig was performed. Statistically significant single nucleotide polymorphisms were found and annotated to genes. Genes related to mitogen-activated protein kinase pathway were identified as candidate genes affecting the intramuscular fat content of pigs.
In chapter 3, genomic prediction models using haplotype alleles were constructed. The models attempt to predict carcass weight in Hanwoo. Different haplotype defining methods were implemented and the prediction accuracies of them were compared. As a result, genomic prediction accuracy was higher when haplotype alleles were used compared to when individual SNPs were used.
In chapter 4, models predicting human height from genotype were developed. I designed a genomic best linear unbiased prediction model adjusted with parental height. In addition, variables having highest effects on height were selected using bootstrap resampling. Models using only the selected variables were tested, and consequently I could obtain a model with high prediction ability.
Through these studies, I could understand how linear mixed models can be applied to explain relationships between genotypic variation and phenotypic variation. The findings of this dissertation will help to extend the use of linear mixed models for understanding the genetic architectures in animals and human.
염기서열분석과 유전형질분석 기술의 발전으로 생물학적 연구에 이용할 수 있는 많은 양의 데이터가 축적되었다. 뿐만 아니라 통계적 모형이 발달하고 큰 데이터를 계산하는 능력이 향상되면서 방대한 양의 유전정보에 대한 보다 정밀한 분석이 가능해졌다. 통계적 계산을 활용한 유전정보의 분석으로부터 유전형질과 표현형 간의 관계를 밝혀낼 수 있다.
본 졸업논문에서는 유전형질의 차이가 어떻게 표현형과 관련이 있는지를 주로 다루고 있다. 우선, 전장유전체연관분석을 통해 표현형과 연관성이 높은 유전 변이를 찾아내고자 하였다. 또한, 유전형질로부터 표현형을 정확하게 예측할 수 있는 모형을 개발하고자 하였다. 표현형에 대한 유전 변이들의 효과를 추정하기 위해서 다양한 선형혼합모형을 적용하였다.
2장에서는 돼지의 근내지방도에 대해서 전장유전체연관분석을 실시하였다. 이로부터 통계적으로 유의한 효과를 가지는 단일염기다형성들을 발견했고, 유의한 단일염기다형성이 포함되어 있거나 물리적으로 가까이 있는 유전자들을 찾아내었다. 찾아진 유전자들 중, 마이토겐 활성화 단백질 키나제 경로와 관련된 유전자들을 돼지의 근내지방도에 영향을 주는 후보 유전자들로 제시하였다.
3장에서는 한우의 유전자형으로부터 도체중을 예측하기 위해 반수체의 대립 형질을 이용한 유전체 예측을 진행하였다. 다양한 방법으로 반수체를 정의하였고, 이로부터 얻어진 대립 형질을 사용했을 때 유전체 예측의 정확도를 비교하였다. 이 때, 반수체를 이용하였을 때의 정확도가 개개의 단일염기다형성을 이용했을 때의 정확도보다 높게 나타났다.
4장에서는 사람의 유전자형으로부터 키를 예측하는 모형을 설계하였다. 예측 모형으로는 부모의 키로 보정된 최적선형불편추정 모형을 사용하였다. 더불어 부트스트랩 재추출을 활용하여 키에 미치는 영향이 큰 단일염기다형성을 선택하였다. 선택된 단일염기다형성만을 변수로 사용하는 모형을 검증한 결과, 예측력이 높게 나타났다.
위의 연구들을 통해 유전자형에서의 변이와 표현형에서의 변이 사이의 관계를 설명하기 위해 선형혼합모형을 어떻게 적용할 수 있는지 이해할 수 있었다. 연구에서 얻어진 결과는 동물과 사람의 유전적 구조를 이해하기 위한 선형혼합모형의 적용을 확장하는 것에 활용될 수 있다.
Language
eng
URI
https://hdl.handle.net/10371/150972
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share