Publications

Detailed Information

Bioinformatic studies to identify human genomic features based on structural variants : 구조 변이 기반 인간 게놈 특성 규명을 위한 생물정보학 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김효영

Advisor
김희발
Major
농업생명과학대학 농생명공학부
Issue Date
2014-08
Publisher
서울대학교 대학원
Keywords
Copy number variationGWASKoreanlivernetworksingle nucleotide polymorphism생물학적 네트워크시각화유전자 복제 수 변이전장유전체연관분석한국인
Description
학위논문 (박사)-- 서울대학교 대학원 : 농생명공학부, 2014. 8. 김희발.
Abstract
지난 몇 년 동안 질병 관련 유전체 구조적 변이 (단일염기 다형성과 유전자 복제 수 변이) 연구에 대한 노력이 계속되고 있다. 단일염기 다형성은 참조유전체와 비교하여 DNA 염기서열에서 하나의 염기서열의 차이를 가지고 유전자 복제 수 변이는 1,000 개 이상의 구조적 변이이다. 전장유전체연관분석은 유전체 구조적 변이와 질병에 관한 후보유전자를 찾는데 많이 연구되고 있다. 데이터 마이닝은 복잡하고 많은 양의 정보를 통찰하는데 중요하다. 이러한 생물학적 네트워크는 연구자가 정보를 통하여 복잡한 문제에 대한 의미론적 해답을 찾는데 도움을 준다. 따라서, 이 논문의 목표는 한국인에서 간 질병과 관련된 유전적 변이를 찾고, 간 기능이나 인종 차이에 영향을 미치는 생물학적 네트워크를 구축하여 이에 대한 의미론적 해답을 찾고 유전체 구조적 변이에 대한 시각화 툴을 구축하는데 있다.
제 1 장에서는 유전자 복제 수 변이, 전장유전체연관분석과 생물학적 네트워크에 관하여 기술하였다. 1) 유전자 복제 수 변이에 대한 개요와 원천 및 찾는 방법을 기술하였고 연구동향과 질병에서의 역할을 정리하였다. 2) 전장유전체연관분석에 대한 개요와 배경을 정리하였고 방법 및 결과를 요약하였다. 3) 생물학적 네트워크에 관한 개요 및 연구동향을 정리하였다.
제 2 장에서는 한국인에 관한 간 형질과 유전자 복제 수 변이의 메타연관분석을 수행하였다. KARE1 파트에서는 1) 한국인 8,842 명에 대해 총 10,162 개의 유전자 복제 수 변이를 찾았고, 2) 간 형질에 대한 유전자 복제 수 변이의 영향을 보기 위하여 단일 선형 회귀 분석을 수행하였다. 그 결과, AST 와 ALT 에 대해서 각각 100 개와 16 개가 유의하게 나왔다. 3) 그 유의한 유전자 복제 수 변이의 지역에 39 개의 유전자가 위치해 있었고 4) 그 유전자에 대해 기능적 분류 분석 결과, 간 관련 후보유전자로서 인정이 되었다. KARE2 파트에서는 KARE1 파트의 반복 유전체연관분석을 수행하였다. 1) 한국인 407 명에 대해 총 3,046 개의 유전자 복제 수 변이를 찾았고, 2) 단일 선형 회귀 분석을 이용하여 유전자 복제 수 변이와 간 형질과의 연관분석을 수행하였다. 그 결과, AST 와 ALT 에 대해서 각각 32 개 (140 개의 유전자)와 42 개 (172 개의 유전자)가 유의하게 나왔다. 3) 반복분석결과, 한국인의 유전자 복제 수 변이와 간 관련하여 총 9 개의 유전자가 유의하게 나왔다.
제 3 장에서는 간 기능과 인종 차이를 나타내는 유전자 복제 수 관련 생물학적 네트워크를 구축하였다. 노드는 유전자, 질병, 대사, 화학물질, 약, 임상정보, 변이 등으로 구성되어있고, 연결은 유전자-질병, 유전자-변이, 유전자-화학물질, 대사-질병, 대사-화학물질, 화학물질-약, 질병-임상정보, 임상정보-약 등으로 구성되어있다. 생물학적 네트워크 분석을 통해 한국인 간 기능 유전자 복제 수 변이 관련 총 4 개의 질병과 1 개의 대사회로 및 7 개의 약을 밝혀내었고, 인종 차이 유전자 복제 수 변이 관련 총 3 개의 질병과 1 개의 약 및 5 개의 대사회로를 밝혀내었다.
제 4 장에서는 유전자 복제 수 변이와 단일염기다형성의 시각화를 위한 툴을 구축하였다. 총 6 개의 메뉴로 1) 유전자 복제 수 변이나 단일염기다형성의 위치에 풍부한 요소 검사와 2) 염색체상의 변이 위치 분포 3) log2 ratio 분포 4) binning 단위 당 변위 분포 5) homozygosity 분포 6) cytomapping 시각화로 구성되어있다. 이 툴은 값으로 나타나는 변이로부터 생물학적 의미를 쉽게 이해하는데 도움을 주고, 또한 어떤 설치나 다운로드 없이 쉽게 이용 가능하다.
전장유전체 연관분석을 통해 한국인의 유전자 복제 수 변이와 간 형질 관련 유력한 후보유전자를 찾을 수 있었고, 간 질병과 인종차이 유전자 복제 수 변이관련 의미론적 생물학 네트워크를 구축할 수 있었다. 또한 다양한 유전자 복제 수 변이 연구를 함으로써 축적되어온 변이 시각화를 위한 총집합적 툴을 개발하였다. 이러한 네트워크와 시각화 툴은 질병이나 인종 관련 유전자 복제 수 변이의 의미론적 생물학 의미 발견이 가능하고 시각화 툴은 값으로 나타나는 유전자 복제 수 변이로부터 생물학적 해석에 도움이 된다.
Over the past few years, efforts focused on investigating the effects of copy number variations (CNVs) in human disease have been continuing. Genetic differences are attributable in part to large-scale structural variations between individuals. CNV is a form of structural variation as a DNA segment ≥ 1 kb in size when compared to a reference genome. Therefore, CNV was used to identify what associated with susceptibility and resistance to diseases. Genome-wide association studies (GWAS) have been used to investigate novel candidate genes associated with complex traits. Many of studies have been reported the association between SNPs or CNVs and complex diseases. Also, several GWA studies have been applied to a personalized medicine. Data mining provided important insights into the data with complicated and huge quantity. These semantic networks have given researchers knowledgeable information answers to complex questions through integration of the available data. Therefore, this thesis is to identify the genetic variation associated with liver diseases between Koreans, construct biological networks to understand the semantic knowledge about liver functions or ethnic disparities, and develop the visualization tool to explain a biological meaning for CNVs or SNPs.
In chapter 1, the general background of CNV, GWAS, and biological network were summarized. First, for CNV, the general overview, mechanism sources, identification methods, various researches in human, and associations with complex diseases were presented. Second, for GWAS, the general overview, biological background, various methods, result findings, clinical application, and limitations were presented. Third, for biological network, the general overview and biological network systems were presented.
In chapter 2, two parts (KARE1 and KARE2) were constituted as replication studies of GWA (genome-wide association) for hepatic biochemical markers AST or ALT in Korean cohorts. In KARE1, the analysis of CNVs in 8,842 Koreans reveals thirty-nine genes associated with hepatic biochemical markers AST (aspartate aminotransferase) and/or ALT (alanine aminotransferase). I genotyped on Affymetrix Genome-Wide Human 5.0 arrays for all samples and identified 10,162 CNVs using HelixTree software (ver. 7.0). To explain the impact of CNVs on each quantitative trait (AST or ALT), univariate linear regression was performed. As the result, 100 CNVs were significant for AST and 16 were significant for ALT at the significance level of 5%. I identified thirty-nine genes located within the significant CNV regions. According to the functional annotation by using DAVID tool, the CNV-based genes are likely to be associated with liver diseases. In KARE2, a study of GWA for hepatic biomarkers was investigated in 407 Korean cohorts. Affymetrix Genome-Wide Human 6.0 array was genotyped for all samples and CNVs were identified using HelixTree software. By using univariate linear regression, 32 and 42 CNVs showed significance for AST and ALT, respectively (p-value < 0.05). To replication study of GWA for hepatic biomarker, CNV-based genes between KARE1 (AST-1885, ALT-773) and KARE2 (AST-140, ALT-172) were compared using NetBox software. As a result, nine genes (CIDEB, DFFA, PSMA3, PSMC5, PSMC6, PSMD12, PSMF1, SDC4, and SIAH1) were overlapped for AST, yet no overlapping genes were found for ALT. Structural variation analysis of CNV-based genes is useful to understand the biological phenotypes or diseases.
In chapter 3, to identify knowledgeable biological meanings for complex big data, two biological networks were constructed on liver functions or ethnic disparities using BioXM software. These semantic networks contained entities (Gene, Disease, Pathway, Chemical, Drug, SNP, CNV, ClinicalTrials, GO, drug, and SomaticMutation) and relationships between two entities (Gene-GO, Gene-Pathway, Gene-Disease, Gene-Chemical, Gene-SNP, Gene-CNV, Gene-SomaticMutation, Pathway-Chemical, Pathway-Chemical, Pathway-Disease, Chemical-Drug, ClinicalTrials-Disease, and ClinicalTrials-Drug). The application of the semantic liver functions network using the KARE2 data are shown in three clusters, including four diseases, one pathway, and seven drugs. Ethnic disparities network was constructed using the ethnic specific SNP-based genes. By eliminating the overlapped SNPs from HapMap samples, ethnic specific SNPs were identified and the SNP-based genes were mapped to the UCSC RefGene lists (ver. hg18). As a result, ethnic specific 22, 25, and 332 genes were identified in the CEU (USA), JPT (Japan), and YRI (Africa) individuals, respectively. The application of ethnic disparities network showed interesting results in the three categories, including three diseases, one drug, and five pathways. The majority of these findings were consistent with the previous studies that an understanding of genetic variability explained ethnic disparities.
In chapter 4, VCS (Visualization of CNVs or SNPs) tool was constructed to visualize CNVs or SNPs detected in animals such as mammals, vertebrates, insects, and worms. VCS can easily interpret a biological meaning from the numerical value of CNVs or SNPs. The VCS provides six visualization tools: (ⅰ) the enrichment of genome contents in CNV region
(ⅱ) the physical distribution of CNV or SNP on chromosomes
(ⅲ) the distribution of log2 ratio of CNVs with criteria of interested
(ⅳ) the number distribution of CNVs or SNPs per binning unit (10 kb, 100 kb, 1Mb, and 10Mb)
(ⅴ) the homozygosity distribution of SNP genotype on chromosomes
and (ⅵ) cytomap of genes within CNVs or SNPs.
By GWAS analyzing between CNVs and hepatic biochemical markers AST or ALT, a lot of biological meaning associated with liver diseases in Korean cohorts could be obtained. Also, semantic biological networks for liver functions or ethnic disparities could be obtained knowledgeable findings. Finally, VCS tool could be achieved by interpreting a biological meaning from the numerical value by graphical viewing, and offered more directly insertable tip-top figures in study. Therefore, in this thesis, I analyzed replication study of GWA for hepatic biomarkers AST or ALT (Chapter 2), constructed the semantic biological networks for liver functions or ethnic disparities (Chapter 3), and developed the VCS web-tool to visualize the CNVs or SNPs (Chapter 4).
Language
English
URI
https://hdl.handle.net/10371/119466
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share