Publications

Detailed Information

Inference of mixed graphical models in 2 groups with Markov random field model and its application : 마르코프 랜덤 필드 모형을 이용한 2개 집단의 혼합 그래프 모형 추정 및 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박재현

Advisor
원성호
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
networkinferencestatisticalmethodMarkovrandomfieldmodelmulti-omicsatopicdermatitis(AD)
Description
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 협동과정 생물정보학전공, 2022. 8. 원성호.
Abstract
Background
Large datasets with a huge number of variables or subjects, such as multi-omics data, have been widely generated recently. Many of these datasets are mixed type including both numeric and categorical variables, which makes their analyses difficult. In some studies, the networks underlying the large dataset may be of interest. There have been several methods that are suggested for the inference of the networks, but most of them can be used only for a single type of data or single class cases.

Objective
The objective of the study is to develop and propose a new method, named fused MGM (FMGM), that infers network structures underlying mixed data in 2 groups, with assumptions that both the networks and the differences are sparse. Also, statistical analyses including the proposed method were conducted to find biological markers of the atopic dermatitis (AD) and underlying network structures from multi-omics data of 6-month-old infants.

Methods
For FMGM, the statistical models of the networks are based on pairwise Markov random field model, and the penalty functions implement the main assumption that the networks in 2 groups and their differences are sparse. Fast proximal gradient method (PGM) was used for the optimization of the target function. The extension of FMGM that allows the inclusion of prior knowledges, named prior-induced FMGM (piFMGM), was also developed. The performance of the method was measured with synthetic datasets that simulate power-law network structures. Also, the multi-omics profiles of 6-month-old infants were analyzed. The profiles include host gene transcriptome (N=199), intestinal microbial compositions (N=197), and predicted intestinal microbial functions (N=98; 84 in common). For the analysis, differential analysis with limma and network inference with FMGM were applied.

Results
From the analysis of simulated 2-class datasets, generated from simulated scale-free networks, FMGM showed superior performances especially in terms of F1-scores compared to the previous method inferring the networks one by one (0.392 & 0.546). FMGM performed better not only in inferring the differences (0.217 & 0.410), but also in inferring the networks (0.492 & 0.572). Utilizing prior information with piFMGM obtained slightly better F1-scores from the inference of networks (0.572 & 0.589), and from the inference of the difference (0.410 & 0.423). As a result, the overall performance showed slight improvement (0.546 & 0.562). From the inference of networks from 6-month-old infants AD data, 10 pairs of variables were shown to have different correlations by disease statuses, including host expression of LINC01036 and MIR4788 and abundance of microbial genes related to carotenoid biosynthesis and RNA degradation.

Conclusions
The proposed method, FMGM inferred the network structures in 2 classes better than the previous method. Inclusion of prior information in piFMGM may be useful in more accurate inference of networks, but since the change was subtle, additional studies may be conducted to improve it. Network inference revealed several markers of AD such as microbial genes related to carotenoid biosynthesis and RNA degradation, suggesting a number of possible underlying metabolisms related to AD such as oxidative stress and microbial RNA balance.
연구 배경
최근 다중 오믹스 자료와 같이 다수의 변수 혹은 관찰을 포함하는 대용량 자료가 광범위하게 생산되고 있다. 이러한 자료는 연속형 및 이산형 변수를 모두 포함하는 혼합형 자료인 경우가 많으며, 이는 자료의 통계적 분석을 어렵게 한다. 특히 기저 네트워크 추론의 경우, 그간 몇몇 통계적 방법들이 제시되어 왔으나, 대부분 변수 유형이 단일하거나 집단이 하나인 경우에 대해서만 적용 가능하다.

연구 목적
본 연구에서는 2개 집단의 혼합형 자료로부터 기저 네트워크를 추론하는 방법인 fused MGM (FMGM)을 개발하고 제시하고자 하였다. 이 방법은 네트워크 자체에 더하여 그 차이 역시 전체 자료에 비해 희박한 밀도를 가짐을 가정한다. 또한, 6개월 아동의 다중 오믹스 자료에 이 방법을 포함한 통계적 분석 방법을 적용하여, 아토피성 피부염과 관련된 생물학적 마커 및 기저 네트워크 구조를 찾아내고자 하였다.

연구 방법
FMGM은 쌍별 마르코프 랜덤 필드에 기반한 통계적 모형을 사용하며, 벌점 함수를 통해 네트워크 및 차이의 희박함을 유도한다. 목적함수의 최적화에는 고속 근위 경사법을 사용하였다. 또한 FMGM의 추론에 사전 정보를 도입할 수 있도록 하는 사전 정보 유도 FMGM (piFMGM) 역시 개발하였다. 추론 방법의 성능은 역법칙 네트워크 구조를 시뮬레이션한 합성 자료를 통해 측정하였다. 6개월 아동의 다중 오믹스 정보 역시 분석하였으며, 오믹스 정보에는 숙주 유전자 전사체 (N=199), 장내 미생물체 구성 (N=197) 및 장내 미생물 기능 정보 (N=98)가 포함된다 (공통 표본 수 84). 분석에는 선형 모형을 통한 차이 분석과 FMGM을 통한 네트워크 추론을 사용하였다.

연구 결과
시뮬레이션한 무척도 네트워크로부터 2개 집단 자료를 생성하여 분석한 결과, 개별 집단에 대해 네트워크를 추론한 결과와 비교하여 FMGM이 더 높은 F1 점수를 나타내어 성능이 더 우수함을 보였다 (0.392 & 0.546). FMGM은 네트워크 간 차이 (0.217 & 0.410)뿐만 아니라 네트워크 자체의 추론에서도 더 우수한 성능을 보였다 (0.492 & 0.572). 사전 정보를 piFMGM을 통해 도입한 경우 전체적인 성능이 미세한 증가를 보였다 (0.546 & 0.562). 네트워크의 추론뿐만 아니라 (0.572 & 0.589), 차이를 추론할 때의 성능 역시 작은 증가세를 띄었다 (0.410 & 0.423). 6개월 아동의 아토피성 피부염 자료로부터 네트워크 추론을 수행한 결과 숙주의 LINC01036 및 MIR4788 발현, 장내 미생물의 카로티노이드 생합성 및 RNA 분해 관련 유전자 등, 10개 변수 쌍이 피부염 여부에 따른 상관성 차이를 나타냈다.

결론
본 연구에서 제시한 방법인 FMGM은 기존 방법에 비해 2개 집단의 혼합형 자료에서 네트워크를 추론할 때 더 좋은 성능을 나타냈다. 사전 정보를 piFMGM을 통해 포함시킬 경우 네트워크 추론의 정확성이 향상되나, 그 차이가 크지 않아 추후 연구에서 이를 발전시키기 위한 방법이 필요할 것으로 보인다. 다중 오믹스 자료의 네트워크 추론 분석을 통해 장내 미생물의 카로티노이드 생합성 또는 RNA 분해 관련 유전자 등 아토피성 피부염과 관련된 생물학적 마커를 복수 발견하였으며, 이는 아토피성 피부염의 기저에 산화 스트레스 또는 미생물 RNA 조절 등이 관련될 수 있음을 제시한다.
Language
eng
URI
https://hdl.handle.net/10371/188613

https://dcollection.snu.ac.kr/common/orgView/000000173369
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share