Publications

Detailed Information

교육 수준이 주요 심혈관계질환 위험요인과 심혈관계질환에 미치는 인과적 영향: 멘델 무작위 분석 : Causal Effect of Education on Major Cardiovascular Risk Factors and Cardiovascular Diseases: a Mendelian Randomization Analysis

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

장영수

Advisor
강영호
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
교육심혈관계질환 위험요인심혈관계질환GWAS멘델 무작위 분석
Description
학위논문(박사) -- 서울대학교대학원 : 의과대학 의학과, 2023. 8. 강영호.
Abstract
The causal effect of socioeconomic factors on health is an important topic in health inequality research. Many observational studies have shown that higher socioeconomic status is associated with better health outcomes. While repeated observational studies have shown a strong association between socioeconomic status and health outcomes, a research that explores the causal effects of socioeconomic status on health is necessary. Because association does not imply causation.
There are many factors that affect an individual's health. Age, gender, place of residence, genetics, health behaviors, and many other factors play a role. It is difficult to single out the specific factors we want to know about and determine their causal effect on health. The biggest obstacles to determining causality between a specific cause and effect are reverse causation and confounding.
The publicly well-known research method to control for reverse causation and confounding is randomized controlled trial (RCT), but RCT is time-consuming and expensive. All studies cannot be randomized due to ethical issues. Another way to investigate causality is to use instrumental variables. An instrumental variable is a variable that satisfies three following conditions. First, the instrumental variable is related to the independent variable. Second, the instrumental variable affects the outcome variable only through the independent variable. Third, the instrumental variable must not be associated with any confounders between the independent and outcome variables.
Mendelian randomization is a method of analyzing the causality between an independent variable and an outcome variable, with single nucleotide polymorphisms (SNPs) associated with the independent variable as the instrumental variable. Since genes are randomly inherited from parents with a 50% probability, genetic variants known to be associated with the independent variable can be set as instrumental variables. We can assume that the random inheritance of genes is analogous to random assignment. In a Mendelian randomization analysis, the genetic variants used as instrumental variables must satisfy the conditions of the instrumental variables.
This study utilized data from the Korean Genome and Epidemiology Study (KoGES) cohort provided by the National Biobank of Korea, part of Korea National Institute of Health, the Korea Disease Control and Prevention Agency. KoGES cohorts consist of community-based cohorts, rural cohorts, urban cohorts, and twin-family cohorts. Each cohort provides a combination of epidemiologic and genetic information, and this study used the data from the community-based cohort, rural cohort, and urban cohort.
There are two main analytical approaches in this study. First, we use GWAS analysis to identify genetic variants that predict educational attainment. Second, we will conduct Mendelian randomization analysis of major cardiovascular risk factors and cardiovascular diseases as outcome variables, with genetic variants predicting educational attainment as instrumental variables. For the Mendelian randomization analysis, we conducted one sample Mendelian randomization using the combined KoGES cohort data and two sample Mendelian randomization by dividing the urban cohort and the community/rural cohort.
Education level was analyzed by converting it to years of education. No schooling was converted to 0 years, elementary school dropout to 3 years, elementary school completion and middle school dropout to 6 years, middle school completion and high school dropout to 9 years, high school completion to 12 years, community college completion to 14 years, university completion to 16 years, and graduate school or higher to 18 years. The mean number of years of education for the entire study population was 11.1 years, with one standard deviation of 4.0 years of education.
Data quality control was performed prior to GWAS analysis. Complete genetic information was provided by the National Biobank of Korea, and all genetic data have no missing genetic information due to imputation prior to data delivery. We excluded 9,770 minor allele frequencies of 1% or less from 8,056,211 total SNPs. The Hardy-Weinberg test was performed to retain SNPs that followed Mendelian inheritance, and 72,098 SNPs were excluded based on p-value 5e-6. Finally, we performed LD pruning to remove 7,135,046 SNPs, leaving a total of 839,297 SNPs.
From the 839,297 SNPs extracted through the above process, we extracted SNPs from both urban and community/rural cohorts to find SNPs that predicted years of education. This was done to ensure replication of the SNPs predicting years of education. The urban cohort yielded 126 SNPs and the community/rural cohort yielded 163 SNPs. The 55 SNPs that overlapped in both cases were used in the Mendelian randomization analysis of this study. P-values were based on 5e-5, with 33 SNPs remaining at a p-value of 5e-6 and 13 SNPs remaining at a p-value of 5e-7.
Mendelian randomization analysis was carried out based on the p-value. In cardiovascular diseases, the odds ratio (OR) calculated by inverse variance weighted (IVW) using a one-sample Mendelian randomization was 0.76 for p-value 5e-5, 0.74 for 5e-6, and 0.73 for 5e-7. This means that a one standard deviation increase of 4.0 years of education is associated with a 24% lower risk of cardiovascular disease. In the two-sample Mendelian randomization, the odds ratios calculated with inverse variance weighting were 0.72 for p-value 5e-5, 0.68 for 5e-6, and 0.69 for 5e-7. This means that a one standard deviation increase of 4.0 years of education is associated with a 28% lower risk of cardiovascular disease.
In a one-sample Mendelian randomization analysis of cardiovascular disease risk factors, the odds ratio for hypertension was 0.72, the odds ratio for diabetes was 0.69, the odds ratio for hyperlipidemia was 0.89, the odds ratio for obesity ≥ 25 kg/m2 was 0.90, the odds ratio for obesity ≥ 30 kg/m2 was 0.85, and the odds ratio for smoking was 0.69. In a two-sample Mendelian randomization analysis, the odds ratio for hypertension was 0.76, the odds ratio for diabetes was 0.76, the odds ratio for hyperlipidemia was 0.88, the odds ratio for obesity ≥25 kg/m2 was 0.90, the odds ratio for obesity ≥30 kg/m2 was 0.85, and the odds ratio for smoking was 0.66.
We compared the SNPs related to the education attainment known from overseas studies with data from the KoGES cohort. There were 162 and 74 SNPs identified in overseas studies. Upon reviewing the KoGES data, 4 out of the 162 SNPs and 2 out of the 74 SNPs were found in the KoGES data. In this study, we examined where the 55 SNPs related to the level of education are located within each chromosome. These 55 SNPs were located in various genes. The MCOLN2 gene located on chromosome 1 is involved in anion channel activation, and the NCMAP gene on chromosome 2 is associated with myelin-related proteins. Many SNPs were distributed on chromosomes 8 and 12 among the 55 chromosomes, and the genes located at these locations include DLGAP2, GIT2, CUX2, ATXN2, ACAD10, NAA25, HECTD4, PTPN11, RPH3A, and more. These genes have functions related to synaptic composition, neuronal development, and metabolic enzymes. Particularly, the DLGAP2 gene on chromosome 8 is related to a protein that plays an important role in neuronal transmission and synaptic composition, and the CUX2 gene is a factor related to neuronal proliferation and differentiation. Although these mutations are located in introns, the presence of intron mutations could influence the respective genes.
Therefore, considering the functions of the genes where the SNPs extracted from KoGES are located, it can be inferred that these SNPs may be influenced by genetic functions such as neurotransmitter and neural development. These functions correspond to the direct pathways related to education, and the SNPs derived from KoGES can be interpreted as having relevance to the mechanisms predicting education.
This study holds significance as it is the first to investigate the causal influence of education level on cardiovascular risk factors and cardiovascular diseases in Korea. Cardiovascular disease is an important cause of mortality and burden of disease in Korea, and this study provides a causal measure of the magnitude by which an increase in educational attainment reduces the risk of cardiovascular disease. These findings can be used to inform policies to reduce socioeconomic inequalities in Korea.
There are several limitations of this study. The sample size was still insufficient compared to overseas studies. These limitations will need to be addressed through further research and new data collection. It is also a matter for further research to determine whether other indicators of socioeconomic status can be used in addition to education. As we continue to build our data set, we expect the sample size to increase, which will be helpful for future Mendelian randomization studies.
Identifying the causal effects of socioeconomic position on health is not only important academically, but also provides a foundation for proposing evidence for reducing health inequality in social policy.
건강불평등 연구에서 사회경제적 요인이 건강에 미치는 인과적 영향은 중요한 주제다. 사회경제적 위치가 높을수록 건강 상태가 더 좋게 나타나는 결과는 기존의 많은 관찰연구를 통해 알려졌다. 지금까지 반복된 관찰연구 결과에서 사회경제적 위치와 건강 상태 사이의 강한 연관성이 알려졌지만, 사회경제적 위치가 건강에 미치는 인과성을 탐구하는 연구가 필요하다. 연관성은 인과성을 의미하는 것이 아니기 때문이다.
개인의 건강에 영향을 주는 원인은 다양하다. 연령, 성별, 거주지역, 유전적 요인, 건강 행태 등의 수많은 요인들이 서로 복잡하게 작용한다. 우리가 알고자 하는 특정 요인만 골라내어 건강에 미치는 인과적 영향을 파악하는 것은 어려운 일이다. 특정 원인과 결과 사이의 인과성을 살피는 데 가장 큰 걸림돌은 역인과성과 교란작용이다.
역인과성과 교란작용을 통제하기 위한 연구 방법은 무작위 배정 연구가 있다. 하지만 무작위 배정 연구는 시간과 비용이 많이 들고 윤리적 문제가 존재하기 때문에 모든 연구를 무작위 배정 연구로 진행할 수 없다. 인과성을 탐구하는 또 다른 연구 방법에는 도구변수를 이용하는 방법이 있다. 도구변수는 3가지 조건을 만족시키는 변수를 말한다. 첫째, 도구 변수는 독립변수와 연관되어 있다. 둘째, 도구 변수는 오직 독립변수를 통해서만 결과변수에 영향을 준다. 셋째, 도구변수는 독립변수와 결과변수 사이의 어떠한 교란변수와도 연관되지 않아야 한다.
멘델 무작위 분석은 독립변수와 관련된 단일염기서열 다형성(single nucleotide polymorphisms, 이하 SNP)를 도구 변수로 놓고, 독립변수와 결과변수 사이의 인과성을 분석하는 방법이다. 유전자는 부모로부터 50% 확률로 무작위하게 전달되기 때문에, 독립변수와 연관이 있는 것으로 알려진 유전자 변이를 도구변수로 설정할 수 있다. 유전자가 무작위하게 전해지는 것을 무작위 배정과 유사하다고 가정할 수 있다. 멘델 무작위 분석에서 도구변수로 사용하는 유전자 변이는 도구변수의 조건을 만족시켜야만 한다.
이 연구는 질병관리청 국립보건연구원 산하 국립중앙인체자원은행에서 제공하는 한국인유전체역학조사사업(Korean Genome and Epidemiology Study, 이하 KoGES) 코호트 자료를 활용하였다. KoGES 코호트는 지역사회 기반 코호트, 농촌 코호트, 도시 코호트, 쌍둥이-가족 코호트 등으로 구성되어 있다. 각각의 코호트는 역학 정보와 유전 정보를 함께 제공하고 있으며, 본 연구는 지역사회 기반 코호트, 농촌 코호트, 도시 코호트 자료를 사용하였다.
본 연구에서 다루게 될 주요 분석 방법은 크게 2가지로 구분할 수 있다. 첫째, 교육 수준을 예측하는 유전 변이를 GWAS 분석을 통해 찾는다. 둘째, 교육 수준을 예측하는 유전 변이를 도구변수로 놓고 결과변수인 주요 심혈관계질환 위험요인과 심혈관계질환에 대한 멘델 무작위 분석을 실시한다. 멘델 무작위 분석은 KoGES 코호트 통합 자료를 이용한 1-표본 멘델 무작위 분석(one sample Mendelian randomization), 도시 코호트와 지역사회/농촌 코호트를 나누어 2-표본 멘델 무작위 분석(two sample Mendelian randomization)을 실시하였다.
교육 수준은 교육 연한으로 변환하여 분석했다. 무학은 0년, 초등학교 중퇴는 3년, 초등학교 졸업 및 중학교 중퇴는 6년, 중학교 졸업 및 고등학교 중퇴는 9년, 고등학교 졸업은 12년, 전문대 졸업은 14년, 대학교 졸업은 16년, 대학원 이상은 18년의 연한으로 변환하였다. 전체 연구집단의 평균 교육 연한은 11.1년이었으며, 1 표준편차에 해당하는 교육 연한은 4.0년이었다.
GWAS 분석에 앞서 자료의 질 관리를 실시하였다. 전체 유전 정보는 국립자원인체자원은행에서 대체(imputation)을 실시하여 제공되어 유전 정보의 결측치는 없었다. 전체 SNP은 8,056,211개에서 마이너 대립유전자 빈도 1% 이하인 9,770개를 제외하였다. 하디-와인버그 검정을 실시해 멘델 유전법칙을 따르는 SNP를 남겼으며, 5e-6을 기준으로 72,098개 SNP을 제외하였다. 마지막으로 LD 전정(pruning)을 실시해 7,135,046개의 SNP을 제외해 총 839,297개의 SNP를 남겼다.
위 과정을 통해 추출한 839,297개 SNP 중에서 교육 연한을 예측하는 SNP을 찾기 위해 도시 코호트와 지역사회/농촌 코호트 두 경우에서 추출하였다. 이는 교육 수준을 예측하는 SNP의 재현가능성(replication)을 위해 실시하였다. 도시 코호트에서는 126개의 SNP가 산출되었고, 지역사회/농촌 코호트에서는 163개 SNP가 산출되었다. 두 경우에서 중복되는 SNP 55개를 본 연구의 멘델 무작위 분석에 이용하였다. P-value는 5e-5를 기준으로 했으며, p-value가 5e-6일 때는 33개의 SNP를 추출하였고, 5e-7일 때는 13개의 SNP를 추출하였다.
멘델 무작위 분석은 p-value에 따라 계산하였다. 심혈관계질환에서 1-표본 멘델 무작위 분석을 통해 역분산가중치(inverse variance weighted, 이하 IVW)로 계산된 오즈비(Odds ratio, 이하 OR)는 p-value 5e-5일 때 0.76, 5e-6일 때 0.74, 5e-7일 때 0.73이었다. 이는 1 표준편차의 교육 연한인 4.0년이 증가하면 심혈관계질환 위험이 24% 낮음을 뜻한다. 2-표본 멘델 무작위 분석에서 역분산가중치로 계산된 오즈비는 p-value 5e-5일 때 0.72, 5e-6일 때 0.68, 5e-7일 때 0.69이었다. 이는 1 표준편차의 교육 연한인 4.0년이 증가하면 심혈관계질환 위험이 28% 낮음을 의미한다.
심혈관계질환 위험요인에 대한 멘델 무작위 분석 결과, 1-표본 멘델 무작위 분석에서 고혈압의 오즈비는 0.72, 당뇨병의 오즈비는 0.69, 고지혈증의 오즈비는 0.89, 25 kg/m2 이상 비만의 오즈비는 0.90, 30 kg/m2 이상 비만의 오즈비는 0.85, 흡연은 0.69로 나타났다. 2-표본 멘델 무작위 분석에서 고혈압의 오즈비는 0.76, 당뇨병의 오즈비는 0.76, 고지혈증의 오즈비는 0.88, 25 kg/m2 이상 비만의 오즈비는 0.90, 30 kg/m2 이상 비만의 오즈비는 0.85, 흡연은 0.66으로 나타났다.
해외에서 알려진 교육 수준에 대한 SNP와 KoGES 자료 내에서 비교하였다. 해외에서 알려진 SNP은 162개, 74개 SNP이 있었으며, KoGES 자료를 검토했을 때 162개 SNP 중 4개 SNP이 KoGES 자료에 존재했으며, 74개 SNP 중 2개의 SNP이 KoGES 자료에 존재하였다. 본 연구에서 추출한 교육 수준에 대한 55개의 SNP가 각 염색체 내에 어떤 유전자에 위치하는지 살펴보았다. 55개 SNP들은 다양한 유전자에 위치했으며, 1번 염색체에 위치한 MCOLN2 유전자는 음이온 채널 활성에 관여하는 유전자이며, 2번 염색체의 NCMAP 유전자는 마이엘린 관련 단백질과 연관되어 있다. 55개 염색체 중에서 8번 염색체와 12번 염색체에서 SNP들이 많이 분포했는데, 해당 위치에 있는 유전자는 DLGAP2, GIT2, CUX2, ATXN2, ACAD10, NAA25, HECTD4, PTPN11, RPH3A 등이다. 이 유전자들은 시냅스 구성, 신경세포 발달, 대사 관련 효소 등에 대해 기능을 갖고 있다. 특히 8번 염색체의 DLGAP2 유전자는 신경세포 전달과 시냅스 구성에서 중요한 역할을 하는 단백질과 관련이 있으며, CUX2 유전자는 신경세포 증식과 분화에 관련된 요인이다. 비록 이들 변이가 인트론에 위치하였지만, 인트론 변이가 있을 경우 해당 유전자의 영향을 받을 수 있다.
따라서 KoGES에서 추출한 SNP들이 위치한 유전자들의 기능을 고려했을 때, 이 SNP들이 신경전달물질, 신경 발달 등의 유전자 기능에 영향을 받는다고 볼 수 있다. 이 기능들은 교육에 대한 직접적인 경로에 해당하며, KoGES에서 산출한 SNP들이 교육을 예측하는 기전과 연관성이 있다고 해석할 수 있다.
이 연구는 우리나라에서 교육 수준이 심혈관계질환 위험요인과 심혈관계질환에 미치는 인과적 영향을 처음으로 탐구하였다는 점에서 의의가 있다. 심혈관계질환은 중요한 사망원인과 질병부담 원인 중 하나인데, 이번 연구를 통해 교육 수준의 증가가 심혈관계질환 위험도를 감소시키는 크기가 인과적으로 측정되었다. 이 결과를 바탕으로 우리나라에서 사회경제적 불평등을 완화하기 위한 정책의 근거를 세우는 데 도움을 줄 수 있다.
이 연구의 제한점이 있는데, 표본 수가 해외 연구 사례에 비해 부족했다는 점이다. 이러한 제한점을 극복하기 위한 후속 연구와 새로운 자료 구축이 필요하다. 사회경제적 위치 지표를 교육 외에 다른 지표들을 사용할 수 있는지도 후속 연구가 진행해야 할 과제다. 자료 구축이 지속적으로 이루어지면서 표본 수도 더 늘어날 것으로 생각되며 추후에 진행하는 멘델 무작위 분석 연구에도 도움이 될 것이다.
사회경제적 위치가 건강에 미치는 인과적 영향을 밝히는 것은 학문적으로도 중요한 의의가 있으며, 나아가 사회정책적으로 건강불평등 개선을 위한 근거를 제시하는 토대가 된다.
Language
kor
URI
https://hdl.handle.net/10371/197156

https://dcollection.snu.ac.kr/common/orgView/000000178120
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share