Publications

Detailed Information

Identification of Differentially Methylated Genes Associated with Sarcopenia Using Machine Learning :the Korean Genome and Epidemiology Study (KoGES) : 머신러닝 기법을 활용한 근감소증 DNA 메틸화 분석 :한국인유전체역학조사사업 데이터 활용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

안서현

Advisor
송욱
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
SarcopeniaDifferentially methylated DNA probesEpigenomeMachine learningKorean Genome Epidemiology Study (KoGES)
Description
학위논문(석사) -- 서울대학교대학원 : 사범대학 체육교육과, 2023. 8. 송욱.
Abstract
노인 인구 비율이 증가하면서 노인성 질환에 관심도가 높아지고 있다. 근감소증(sarcopenia)이 그중 하나이다. 근감소증(sarcopenia)은 신체적 노쇠와 비슷한 개념으로 노화에 따른 근육량, 근력의 감소와 신체기능의 감소가 이루어지는 상태를 의미한다. 이는 사망률 증가, 골다공증, 골절, 각종 질환이 동반된다. 과거에는 자연스러운 노화의 한 과정으로 여겼지만, 최근 세계보건기구(WHO)에서는 근감소증을 정식 질병 코드로 등재했으며, 한국 또한 근감소증 질병코드(M62.5)를 부여했다.
노화로 인해 근육량, 근력 및 신체 기능이 감소하면서 이차적인 질병 유발 가능성이 커진다. 이러한 근육량 및 기능의 감소 속도는 개인마다 차이가 있다. 노화에 따른 근육의 변화는 고정된 유전적 요인에 기인할 수 있지만, 환경적인 요인과 유전적 요인과의 상호작용으로도 발생한다. 따라서 근감소증 후성유전학적 연구가 필요하지만 이에 대한 연구는 아직 부족한 실정이다.
후성유전학은 DNA 염기서열의 변화 없이 유전자 발현에 영향을 미치는 현상이며, 이는 생애 동안 접하는 환경적 요인에 의해 영향을 받는 것으로 알려져 있다. DNA 메틸화와 히스톤 변형은 후성유전학의 주요 메커니즘으로, DNA 메틸화는 노화와 만성 질환의 발병에 중요한 역할을 한다. 노화 및 다양한 질병으로 인해 근육의 양과 기능의 변화가 DNA 메틸화와 관련이 있다는 점을 감안할 때 근감소증과 DNA 메틸화 사이의 잠재적인 관계가 제안되었다. 따라서 본 연구의 목적은 한국인유전체역학조사(KoGES) 데이터를 활용해 한국인의 근감소증 잠재적 바이오마커를 발굴하고 해당 유전체를 이용하여 근감소증 진단 및 예측 모델을 개발하고자 한다.
2004년부터 2013년까지 Korea Genome and Epidemiology Study (KoGES)의 데이터를 활용하였다. 총 110명 (남성: 82명, 여성: 28명)의 차등 메틸화 DNA probe를 분석하였다. 피험자는 근육량 (사지골격근량, appendicular skeletal muscle index; ASMI)과 근력 (악력, handgrip)의 두 변수를 기준을 이용하였다. 본 연구에서는 두 변수 데이터의 상위, 하위 25%로 나누어 근감소증 그룹을 결정하였다. 메틸화 데이터는 Infinium사의 Infinium Methylation Epic Beadchip로 어세이 된 자료들은 DNA 메틸화 배치 효과에 대한 정규화 및 보정 등 적절한 데이터 처리 단계를 이용한 후 유전자 내 총 740,000개 이상의 마커를 얻을 수 있었다. 이후
logFC
>0.15 그리고 FDR adjusted p-value<0.05를 기준으로 두어 차등 메틸화 DNA probe를 분석하였다. 남성은 과메틸화 99 probe, 저메틸화 67 probe가 발견되었으나 여성의 경우에는 임곗값을 충족하지 못하여 차등 메틸화 분석을 수행할 수 없었다. 따라서 여성 그룹에 대한 데이터는 차등 메틸화와 관련하여 유의미한 결과가 부족하여 제외되었다.
주요한 바이오마커를 식별하기 위해 남성의 과메틸화 99 probe와 저메틸화 67를 합쳐 총 166개 probe를 분석하였다. 변수 데이터가 정규 분포를 이룰 수 있도록 피어슨 상관계수 (Pearson correlation)를 사용하여 134개 probe이 제거되었다. 134개 probe 중 유의미한 변수를 선택하기 위해 재귀적 특성 제거 교차 검증 (recursive feature elimination cross-validation; RFECV)을 사용하였다. 최종적으로 유의미한 연관성을 가진 총 10개가 확인되었다. 확인된 probe은 majority voting 앙상블을 이용하여 근감소증 진단 모델을 구축하였다. 사용된 앙상블 기법은 모델 성능을 개선할 수 있는 기법으로, 단일 모델보다 더 나은 성능을 달성할 수 있기 때문에 사용되었다. Train과 test 데이터 세트는 7:3으로 나누어 분석하였다. Train 데이터 세트는 Decision tree, random forest, logistic regression, K-Nearest Neighbors, Naïve Bayes 4가지 알고리즘을 이용하여 학습되었으며 사용된 개별 모델의 예측을 결합하여 majority voting 값을 도출하였다. 마지막으로 test 데이터 세트를 이용하여 진단 모델을 평가하고, area under the curve (AUC) 값으로 진단 성능을 평가하였다. 구축된 모델은 한국인 근감소증 유전자 표현형을 식별하는 데 있어 높은 정확도(96%)를 보였다. 또한 10개의 probe 중 TCF12, RYR2, 그리고 ZNF415는 근감소증과 관련된 유전체로 확인되었다. TCF12 유전은 근육 발달 및 재생에 영향을 주며, RYR2는 심장 근육과 관련된 유전체이지만 근육과 관련된 RYR1 유전체와 같은 receptor에서 방출되기 때문에 RYR1과 함께 근육에 영향을 줄 수 있다. 마지막으로 ZNF415는 다른 유전자에 비해 광범위하게 연구되고 특성화되지는 않았지만, 유전자 조절 및 전사 조절을 포함한 다양한 세포 과정에 관여한다. 선행 연구에서 ZNF415 유전체가 근감소증과 연관이 있는 biomarker로 확인되어 근육에 영향을 주는 유전체라고 시사할 수 있다.
노화에 따라 근육량, 근력의 감소 그리고 신체의 기능의 감소가 야기되기 때문에 확인된 10개의 probe을 이용하여 연령에 따른 발현율의 차이를 확인하였다. 그 중 RYR2는 나이와 가장 큰 음의 상관관계 (r=-0.64)를 보여 이를 통해서 근감소증은 노인에게서만 나타나는 질환이 아니라 중장년층에서도 발현될 수 있기 때문에 근감소증은 초기에 예방을 해야 한다고 시사할 수 있다.
본 연구는 머신러닝 기법을 통해 근감소증의 잠재적 유전자를 확인하였으며 근감소증 진단 성능이 높은 초기 예측 및 진단 모델을 개발하였다. 한국인의 근감소증 예측력이 향상되었지만, 확인된 메틸화 probe와 근감소증과의 관계를 규명하기 위해서는 세포 및 분자생물학적 검증을 종합적으로 수행하는 것이 중요하다. 본 연구를 통해 도출된 근감소증의 잠재적 유전자는 한국인의 근감소증 위험의 근본적인 기전에 대한 귀중한 통찰력을 제공하고, 표적 중재를 위한 유용한 참고 자료가 될 것이다.
With the aging population on the rise, there is a growing emphasis on geriatric illnesses, with sarcopenia being a notable focus. Comparable to physical aging, sarcopenia manifests as a decline in muscle mass, strength, and physical performance as one ages. This condition is linked to heightened mortality rates, osteoporosis, fractures, and other ailments. While once perceived as a natural aspect of getting older, recent times have officially recognized sarcopenia as a distinct medical condition. Recently, the World Health Organization (WHO) listed sarcopenia as an official disease code, and Korea has also assigned a disease code (M62.5) to sarcopenia.
As individuals age, the diminishing muscle mass, strength, and physical function elevate the risk of falls and susceptibility to secondary health issues. The pace of this decline varies among individuals and stems from a blend of fixed genetic components and environmental influences. Epigenetic inquiries are imperative to decipher the intricate interplay between genetic and environmental elements, the epigenetic factors associated with sarcopenia are still not well understood.
Epigenetics is the phenomenon of influencing gene expression without changing the DNA sequence, which is known to be influenced by environmental factors encountered throughout life. The primary mechanisms within epigenetics involve DNA methylation and histone modifications, with DNA methylation emerging as a pivotal player in the processes of biological aging and the emergence of chronic ailments. The notion of link between sarcopenia and DNA methylation has been introduced, driven by observations that alterations in muscle mass and function, a consequence of aging and diverse diseases, coincide with DNA methylation shifts. Therefore, this study purpose to unveil potential sarcopenia biomarkers within the Korean population, utilizing data sourced from the Korean Genome Epidemiology Study (KoGES), and subsequently, to generate a diagnostic and predictive model for sarcopenia using machine learning algorithms, leveraging the genome as a foundation.
Using data from the Korea Genome and Epidemiology Study (KoGES) from 2004 to 2013. A total of 110 participants (82 male and 28 female) were included to investigate the association of the identified differentially methylated DNA probes with the occurrence of sarcopenia. Participants were categorized according to two variables: muscle mass (appendicular skeletal muscle index; ASMI) and muscle strength (handgrip) according to the criteria of Asian sarcopenia. The sarcopenia groups were determined by dividing lower and upper quantile of the total data. The differentially methylated DNA probes data were assayed with the Infinium Methylation Epic Beadchip from Infinium, and after appropriate data processing steps, including normalization and correction for DNA methylation batch effects, a total of more than 740,000 markers within genes were obtained. Differentially methylated DNA probes were subsequently analyzed using criteria of
>0.15 and FDR adjust p-value<0.05. In the male group, 99 hypermethylation and 67 hypomethylation were found, but in the female group, the threshold was not met, and the differential methylation analysis could not be performed. Hence, the data from the female group was excluded due to the absence of significant results concerning differential methylation.
To identify key biomarkers, a total of 166 differential methylation probes were analyzed. To ensure that the variable data were normally distributed, 134 variables were removed using Pearson correlation. Recursive feature elimination cross-validation (RFECV) was then used to select significant variables. Finally, a total of 10 probes with significant associations were identified. Using the 10 probes, built a diagnostic model for sarcopenia using a majority voting ensemble that combines the predictions of multiple models. This ensemble technique was used because it is a technique that can be used to improve model performance and can achieve better performance than a single model. The train and test data sets were split 7:3 for analysis. The train dataset was trained using four algorithms: decision tree, random forest, logistic regression, K-Nearest Neighbors, and Naïve Bayes, and the predictions of the individual models used were combined to derive the majority voting value. Finally, the diagnostic model was evaluated using the test data set, and the diagnostic performance was evaluated using the area under the curve (AUC) value. The constructed model showed high accuracy (96%) in identifying the genetic phenotype of sarcopenia in Koreans.
In addition, three of the 10 selected probes, TCF12, RYR2, and ZNF415 were identified as potential biomarkers of sarcopenia. The TCF12 gene has a significant impact on muscle development and regeneration, while RYR2 is known for its role in heart muscle and may also affect skeletal muscle through its interaction with RYR1 receptors. Regarding ZNF415, although it has not been extensively studied compared to other genes, it participates in various cellular processes, including gene and transcriptional regulation. Previous research has linked ZNF415 to sarcopenia, suggesting its potential association with the condition.
Furthermore, given that aging is linked to a reduction in muscle mass, strength, and overall bodily functions, examined their correlations with aging using the 10 identified probes. Among these, RYR2 exhibited the most pronounced negative correlation with age (r = -0.64), highlighting that sarcopenia is not exclusively limited to the elderly; it can also manifest in middle-aged individuals. This underscores the significance of addressing muscle aging during middle age to potentially forestall or alleviate the onset of sarcopenia.
Using machine learning techniques, potential genetic biomarkers of sarcopenia were identified, and an early prediction model with high diagnostic performance for sarcopenia was successfully developed. Despite the enhanced predictive capability for sarcopenia, conducting comprehensive cellular and molecular biological validation is crucial to elucidate the connection between the identified methylation candidate molecules and sarcopenia. The identified potential genetic biomarkers of sarcopenia offer valuable insights into the underlying mechanisms of sarcopenia risk in Koreans and serve as a valuable reference for targeted interventions.
Language
eng
URI
https://hdl.handle.net/10371/196880

https://dcollection.snu.ac.kr/common/orgView/000000178575
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share