Publications

Detailed Information

Applications of linear and nonlinear models for association and classification using genomic polymorphisms : 유전체 다형성을 이용한 연관과 분류를 위한 선형 및 비선형 모델의 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

장동성

Advisor
김희발
Major
농업생명과학대학 협동과정농생명유전체학전공
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 농업생명과학대학 협동과정농생명유전체학전공, 2019. 2. 김희발.
Abstract
I performed associations and classifications to identify genomic variants from genomic polymorphisms. In the first study, Genome-Wide Association Studies (GWAS) were conducted to detect the association between SNP markers and phenotypes. For this process, I created linear models using the PLINK program. In the second study, I conducted decision tree for classifications using genomic regions to detect genomic variants that can classify species. Decision trees are nonlinear models and particularly applicable for multiclass dependent variables (Kim 2003
Ozaki 2014). In this study, the dependent variables were pathogenic E. coli strains, which were classified into five types according to the symptoms.
In chapter 2, I performed multivariate GWAS analysis using SNP markers and phenotypes of Berkshire and Duroc. In general, Berkshire is more tender compared to Duroc. I conducted this study in order to detect what genomic variation causes these differences in pork quality. The target phenotype in this study was tenderness of the pork. Because this tenderness was a complex trait affected by various phenotypes, I performed multivariate GWAS rather than univariate GWAS. Based on the result of multivariate GWAS, I could identify SNP marker (ASGA0033314) that were related to tenderness and suggested candidate genes (MEP1A, ARPC1A, ENAH, APC2) related to this marker.
In chapter 3, I performed classification analysis to classify pathogenic E. coli. Among the pathogenic E. coli, I used five types of E. coli strains related to diarrheal disease known to cause food poisoning in this study. In general, pathogenic E. coli is classified into the presence or absence of virulence factors. This study was conducted to propose different classification method different from the existing one using sliding window technique. I conducted decision tree analysis to detect genomic regions that could classify pathogenic E. coli. The genomic regions detected by decision tree is presented as regions in which genomic variations exist to classify E. coli. Among these regions, there are sequences that have not yet been studied. If the functions of these regions are studied, they are expected to be used as markers or primers. This study is expected to contribute to the treatment of pathogenic E. coli related symptoms by the classification of pathogenic E. coli by the sliding window method.
나는 유전적 다형성으로부터 유전적 변이들을 발굴하기 위해 연구를 수행했다. 첫번째 연구에서 SNP 마커들과 표현 형질 간의 연관성을 찾기 위해 전장 유전체 연관 분석(Genome-Wide Association Studies, GWAS)을 실시했다. 이 과정을 위해 PLINK 프로그램을 이용해서 선형 모델을 만들었다. 두번째 연구에서는 종을 분류할 수 있는 유전적 변이를 발굴하기 위해 유전적 영역을 이용한 분류를 위한 의사결정 나무를 실시했다. 의사결정 나무는 비선형모형으로, 특히 다분화(multiclass) 종속 변수에 대해서 적용 가능한 장점이 있다 (Kim 2003
Ozaki 2014). 이번 연구에서 종속 변수는 병원성 대장균인데 증상에 따라서 다섯 가지로 다분화 되어 있기 때문에 의사결정 나무를 적용해 분류 분석을 실시했다.
즉, 단일 염기 다형성 (SNP) 수준에서 두 가지 표현형을 사용하여 다변량 GWAS을 수행하여 돼지 전장 유전체로부터 변이를 검출하는 연구를 실시했다. 그리고 유전체 영역 수준에서는 의사결정나무 분석을 수행하여 대장균 전장 유전체의 유전적 영역을 이용하여 이들 병원성 대장균의 종을 분류 할 수 있는 유전적 변이를 발굴하기 위한 연구를 수행했다.
2장에서는 버크셔 (Berkshire) 돼지와 듀록 (Duroc) 돼지의 SNP 마커들과 표현 형질을 이용하여 다변량 GWAS을 수행했다. 일반적으로 버크셔는 듀록 보다 부드럽다고 한다. 나는 어떤 유전적 변이가 이 두 품종의 돼지 고기에서 변이를 유발하는지 알아내기 위해 연구를 수행했다. 이번 연구에서 목표 표현 형질은 고기의 부드러움이다. 이 부드러움은 다양한 형질이 관여하는 복잡한 특성이기에 일반적으로 사용되는 일변량 GWAS가 아닌 다변량 GWAS을 수행했다. 다변량 GWAS의 결과를 토대로 부드러움과 관련된 SNP 마커 (ASGA0033314)를 발굴 했고, 이 마커와 관련된 후보 유전자들 (MEP1A, ARPC1A, ENAH, APC2)을 제시했다. 이 연구에서 찾은 부드러움과 관련된 유전자들은 돼지 고기의 육질을 개선하는 데 도움이 될 것이다.
3 장에서 병원성 대장균을 분류하는 분석을 수행했다. 병원성 대장균 중에서도 식중독을 일으킨다고 알려진 설사성 질환과 관련 있는 대장균 5 가지를 이번 연구에서 사용했다. 일반적으로 병원성 대장균은 독성 인자의 유무로 분류된다. 이번 연구는 새로운 접근법으로서 기존 방법과 다른 분류 방법을 제안하기 위해 수행되었다. 나는 병원성 대장균을 분류 할 수 있는 유전체 영역을 얻기 위해 의사결정나무 분석을 실시했다. 분석 결과 얻은 유전체 영역을 대장균을 분류할 수 있는 새로운 방법으로 제시했다. 이 영역들 중에는 아직 기능이 밝혀지지 않은 부분들이 다수 존재하지만, 훗날 기능이 밝혀진다면 마커나 프라이머로써 사용이 가능 할 것으로 기대된다. 이 연구는 슬라이딩 윈도우 방법으로 병원성 대장균을 분류하는데 의의를 두고 병원성 대장균 관련 증상을 치료하는데 도움을 줄 것으로 기대한다.
Language
eng
URI
https://hdl.handle.net/10371/151029
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share