Browse

1,779 whole-genome datasets unveil population-specific genetic architecture and pharmacogenomics profile in Northeast Asian reference panel
1,779명 동북아시아인의 전장 유전체 데이터를 기반으로 한 참조 패널 생성과 유전학적 인구 특성 구조 및 약리 유전체학 프로파일의 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
김창욱
Advisor
김종일
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
Population genomicsPharmacogenomicsReference panelGenotype imputationWhole-genome sequencingNortheast AsiansEast Asians집단 유전체학약리 유전체학참조 패널유전형 임퓨테이션전장 유전체 해독동북아시아동아시아
Description
학위논문 (박사) -- 서울대학교 대학원 : 의과대학 의과학과, 2020. 8. 김종일.
Abstract
서론: 전장 게놈 해독 (WGS)의 비용 감소와 생산량 증가로 인간 게놈 연구의 대상자 수가 점차 늘어나고 있다. 특정 인구에 대한 대규모의 WGS는 인간 대상 유전체학 연구에서 매우 중요하며, 더 나아가 정밀의학 실현을 위한 인구집단에 대한 집단 유전체학적 이해와 약리 유전체학적 프로파일의 정확한 구축을 위해 대규모 WGS 데이터의 필요성은 지속해서 대두되고 있다. 하지만 대부분의 그 연구의 대상이 유럽인 중심으로 편중 되어있는 것이 현실이다.

방법: 우리는 한국인과 몽골인, 일본인, 중국인, 홍콩인 1,779명으로부터 생산한 전장 유전체 서열 분석 데이터를 활용하여 NARD (Northeast Asian Reference Database)를 구축하였다. NARD는 1000 게놈 프로젝트 3단계 (1KGP3)에 포함되지 않았던 한국계와 몽골계 인구의 새로운 유전적 다양성을 제공한다. 우리는 NARD와 1KGP3의 유전자형 데이터를 병합하고 re-phasing 방법으로 높은 성능의 통합 데이터 세트를 생성하였다.

앞서 한국과 몽골 인구에 대해 NARD 정도의 규모와 정밀성을 갖춘 데이터가 발표된 적은 없었다. NARD는 앞으로 동북아시아의 유전체학 분야에 더 정확하고 새로운 통찰을 제공할 것이다. 우리는 이 데이터를 토대로 한 PCA, FST 분석과 계통수 분석을 통해 인구 유전체학적 연구를 진행하였다.

우리는 또한 동북아시아의 약리학적 특성을 밝히는 시도를 하였다. 약물 반응과 관련된 단일 염기 다형성 (SNP) 및 BCL2L11 (BIM) 인트론 영역의 결손을 포함하는 구조적 변이, 면역 체크 포인트 차단 (ICB)에 대한 효험과 관련이 있는 HLA 영역을 포함한 동북아시아 특이적 변이를 조사하였다.

결과: re-phasing 방법으로 병합된 NARD와 1KGP3의 패널을 이용한 동아시아인 대상 imputation은 기존 패널들의 성능과 비교하여 가장 높은 정확도를 보였으며 특히 희귀 변이와 저 빈도 변이에 대해 그 향상이 두드러졌다.

우리는 인구 구조 분석을 통해 기존에 알려진 것과 달리 한국인, 몽골인, 일본인과 중국인 및 동남아시아인 사이에 뚜렷한 차이가 존재한다는 것을 확인할 수 있었다.

NARD에서 일정 이상 빈도로 존재하는 변이는 환자를 대상으로 한 검사나 연구에서 단백질을 변성시키는 변이의 허위 후보를 제거하는데 활용될 수 있다. NARD에서는 총 1,480만여 개의 기존에 보고되지 않았던 신규 변이가 발견되었다. 그리고 약리 유전체학적 분석에서 타이로신 키나아제와 면역 체크 포인트 억제제의 효과 감소가 다른 지역에 비해 동북아시아에서 더 빈번하게 나타남을 보였다. NARD 참조 패널은 https://nard.macrogen.com/ 에서 임퓨테이션 파이프라인과 함께 제공된다.

결론: 우리는 동북아시아인 대상으로 가장 정확한 참조 패널을 구성하였다. 이 참조 패널은 연구목적으로 누구나 쉽게 사용할 수 있게 웹을 통해 제공된다. 또한 동북아시아의 인구 구조 및 약물 유전체학적으로 더욱 정밀한 통찰을 제공했다. 우리의 연구는 앞으로 동북아시아 정밀 의학 시대를 열기 위한 추가적인 연구의 초석이 될 것이다.
Introduction: Whole-genome sequencing (WGS), an important technique in genome research, is becoming bigger the number of subjects thanks to both the increase of sequencing capacity and the decrease of sequencing cost. Large scale WGS for specific human populations with deep depth coverage is necessary to study population genomics. Moreover, the need for large-scale deep WGS datasets is emerging to precisely understand the pharmacogenomics profile for precision medicine in Northeast Asia in line with the global trend. However, most of the WGS studies are currently biased to Europe.

Methods: We constructed the Northeast Asian Reference Database (NARD) using whole-genome sequencing data of 1,779 individuals from Korea, Mongolia, Japan, China, and Hong Kong. The NARD provides the genetic diversity of Korean and Mongolian ancestries that were not present in the 1000 Genomes Project Phase 3 (1KGP3). We re-phased the genotypes merged from the NARD and the 1KGP3 to construct a more robust union set of haplotypes.
Mongol and Korean samples have never been released on the scale and the depth of the NARD level. It is expecting to shed light on novel and accurate insights to population genomics. To investigate the population structure, we performed PCA analysis, the fixation index (FST) analysis, phylogenetic tree construction, and ADMIXTURE analysis.
We also tried to reveal the pharmacogenetic characteristics of Northeast Asians. We looked at various types of variants specific to Northeast Asians, the single nucleotide polymorphisms (SNPs) related to drug responses including rs116855232 in NUDT15, the SVs including BCL2L11 (BIM) intronic deletion, and the HLA haplotypes related to the responsiveness of immune checkpoint blockade (ICB) therapy.

Results: The re-phasing approach we used to enhance the panel merged of the NARD and the 1KGP3 established a robust imputation reference panel for Northeast Asians, which yields the greatest accuracy in the genotype imputation especially for rare and low-frequency variants of Northeast Asians compared to the existing panels.
Population genomics analyses demonstrated the significant differentiation among Koreans, Mongolians, Japanese, and mainland East Asians (Chinese and Southeast Asians), in contrast to previous studies that highlighted the close genetic relationships in Northeast Asian populations.
The NARD variants catalog covered 14.8 million novel SNPs, which is improving the disease-related variants discovery by reducing the potential pathogenic candidates with common frequency redefined from rare frequency. Pharmacogenomics profiling suggested that the inefficiency of tyrosine kinase and the inhibition of immune checkpoint prevailed in Northeast Asians.
The workbench of the imputation pipeline with the NARD panel is available at https://nard.macrogen.com/.

Conclusions: We constructed the most accurate genotype imputation panel for Northeast Asian with public availability. We also unveiled the detailed Northeast Asian population structure and pharmacogenomic observations. Our work will contribute to further studies into the era of precision medicine for not only Northeast Asian but also the global population.
Language
eng
URI
http://hdl.handle.net/10371/170362

http://dcollection.snu.ac.kr/common/orgView/000000162170
Files in This Item:
Appears in Collections:
College of Medicine/School of Medicine (의과대학/대학원)Dept. of Biomedical Sciences (대학원 의과학과)Theses (Ph.D. / Sc.D._의과학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse