Publications

Detailed Information

A Study on Genetic Implications of Korean Individuals through the Establishment of Genome Dataset : 유전체 데이터세트 구축을 통한 한국인의 유전적 함의에 관한 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이정은

Advisor
최진욱; 최무림
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
genome databasewhole-exome sequencingwhole-genome sequencingEast AsianKoreanpositive selectionallele age
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 협동과정 바이오엔지니어링전공, 2023. 2. 최진욱
최무림.
Abstract
건강한 개인의 유전체에 대한 이해는 인간 발생 및 질병 생리학 연구, 유전 질환에 대한 임상적 진단의 근간이 된다. 따라서 질병유전학의 상당한 발전에 발맞추어 일반 인구에 대한 유전체 데이터베이스의 중요성 또한 대두되고 있다. 그러나 현재까지의 연구는 주로 유럽계 개인에 초점을 맞추어 진행되어왔기에, 다른 인종 그룹에서 새로운 기능적 유전 변이의 추가 발견이 제한적으로 이루어졌다. 이에 따라 동아시아 국가별로 독자적인 유전체 데이터베이스를 구축하고자 하는 노력이 점차 커지고 있으나, 한국인의 유전체 데이터베이스는 인접 동아시아 국가의 데이터베이스 구축 속도에 못 미치고 있는 실정이다.
본 연구에서는 한국인 인구 유전체 자원의 부족을 해소하고 동아시아 인구 유전체 데이터베이스 구축에 기여하기 위해, 건강한 한국인의 1,896개의 전장 유전체 염기서열 정보와 3,409개의 전장 엑솜 염기서열 정보로 구성된 한국인 유전체 데이터베이스 (KOVA2)를 구축하였다. 이는 gnomAD에 포함된 한국인 1,909명에 대한 유전체 데이터를 넘어 역대 최대 규모의 한국인 특화 유전체 데이터베이스이다. 구축된 유전체 데이터베이스는 초기 데이터부터 통일된 파이프라인을 통해 변이를 검출하였으며, 건강한 한국인만의 높은 정확도의 유전 변이만이 데이터베이스에 포함되도록 하였다. 이를 통해 40,414,379개의 단일 염기 변이와 2,888,275 삽입/삭제 변이 정보를 얻었으며, 전장 유전체 데이터를 이용하여 144,388개의 구조 변이에 대한 정보를 정리하였다. KOVA 2 데이터베이스를 이용해 분석된 한명의 샘플을 다른 시퀀싱 플랫폼으로도 시퀀싱하여 변이 검출의 정확도를 평가한 결과 시퀀싱 플랫폼간에 높은 일치율을 보였다. 또한 이전에 발표된 유전체 데이터베이스를 통해 알려진 유전적 특징 모두 보임으로써 KOVA2 변이의 신뢰도를 검증하였다.
구축된 KOVA2 데이터베이스는 동형 접합성의 연속성, 진화적으로 양성적 선택이 이루어진 영역, 변이의 나이, 그리고 인구수의 변화를 추정하는 데 추가적으로 활용하여 한국인 특이적 유전적 특징을 분석하였다. 그 과정에서 ADH1A/1B 및 UHRF1BP1 유전자좌와 같이 다른 동아시아 인구에 비해 한국인에게서 진화적으로 강하게 선택되는 유전자좌를 발견했다. 대립형질의 나이를 분석한 결과는 유전변이의 기능과 진화적 나이 사이에 존재하는 상관관계를 밝혔다. 동형 접합성의 연속성을 파악한 결과는 한국인 특이적인 차이를 보이지 않았으며, 한국인의 인구수 통계 기록과 유사한 시간별 인구수를 추정할 수 있었다.
변이별로 추정된 변이의 나이와 양성적 선택의 크기를 포함한 한국인의 유전 변이 정보는 공개 웹사이트에서 검색 및 다운로드할 수 있도록 하였다. 본 연구 결과는 동아시아 인구를 대상으로 하는 유전학 연구에 새로운 귀감을 줄 수 있는 귀중한 자료가 될 것이다.
Understanding genetic architectures of healthy individuals is fundamental in the study of physiology of human development and disease, as well as clinical diagnosis of genetic disease. Accordingly, in line with substantial advances in disease genetics, the importance of the genome database of general population has also emerged. However, studies to date have largely focused on individuals of European descent. This limits further discoveries of novel functional genetic variants in other ethnic groups. As a result, efforts to establish independent population-specific genome databases for each East Asian country have gradually grown, but the current state of Korean genome database construction is not reaching the database construction speed of neighboring East Asian countries.
In this study, in order to resolve the paucity of Korean population genome resources and contribute to the establishment of an East Asian population genome database, a Korean genome database (KOVA2) consisting of 1,896 whole genome sequences and 3,409 whole exome sequences of healthy Koreans was established. This is the largest Korean-specific genome database ever, surpassing the 1,909 Korean genome data included in gnomAD. The constructed genome database detected mutations through the newly developed pipeline which takes the raw sequence data as an input, and only high quality variants from the healthy Koreans were included in the database. In total, 40,414,379 SNVs and 2,888,275 insertions/deletions were obtained, and 144,388 structural variants called from whole genome data were cataloged. A sample from KOVA2 was sequenced with another sequencing platform to evaluate the integrity of the calling pipeline, and it showed high concordance rate between sequencing platforms. Also, all known genetic characteristics reported from previously published genome databases were identified from KOVA 2.
The KOVA2 database was analyzed to additionally characterize the Korean-specific genetic features including the runs of homozygosity (ROH), the positively selected regions, allele age. In the process, we found loci that are strongly selected in Koreans compared to other East Asian populations, such as the ADH1A/1B and UHRF1BP1 loci. Analysis of allele age revealed a correlation between variant functionality and allele age. There was no significant difference in ROH regions of Koreans with other East Asians. Estimation of the effective population size by time showed similar results that match to the population statistics record of Koreans.
Called variants from KOVA2, including the estimated allele age and scores reflecting degree of positive selection were made available for search and download from public websites. The results of this study will serve as valuable resource that can provide a new insight for various genetic studies targeting East Asian populations.
Language
eng
URI
https://hdl.handle.net/10371/193413

https://dcollection.snu.ac.kr/common/orgView/000000175419
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share