Publications

Detailed Information

Development of machine learning models to predict pathogenic potential and transcriptional regulatory network of enterohemorrhagic Escherichia coli : 장출혈성대장균의 잠재적 독성 및 전사조절 네트워크 예측을 위한 기계학습 모델 개발

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

임한혁

Advisor
최상호
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
EHECMachinelearningGenomePathogenicpotentialTranscriptomeTranscriptionalregulatorynetwork
Description
학위논문(박사) -- 서울대학교대학원 : 농업생명과학대학 농생명공학부, 2022. 8. 최상호.
Abstract
Enterohemorrhagic Escherichia coli (EHEC) is a causative agent of human illnesses ranging from mild diarrhea to hemolytic uremic syndrome, which often results in permanent kidney failure. EHEC is considered as one of the major public health concerns because the novel pathogenic isolates continuously emerge and cause worldwide outbreaks. In order to control the disease burden of emerging EHEC, the accurate assessment of its pathogenic potential is critical. However, the conventional methods that use serotypes or several virulence genes have limitations in evaluating the emerging EHEC isolates with either unknown serotypes or a novel combination of virulence genes. In the present study, I developed a machine learning (ML) model using the support vector machine (SVM) algorithm, the SVM model, to predict the pathogenic potential of the EHEC isolates using their whole genome sequencing data. The SVM model successfully predicted the pathogenicity of the isolates from the major sources of EHEC outbreaks, the isolates with a history of outbreaks, and the isolates that cannot be assessed by conventional methods. Furthermore, the SVM model effectively differentiated the pathogenic potentials of the isolates at a finer resolution. Permutation importance analyses of the input dataset further revealed the genes important for the estimation of the SVM model, proposing the genes potentially essential for the pathogenicity of EHEC. Consequently, these results suggest that the SVM model is a more reliable and broadly applicable method to evaluate the pathogenic potential of EHEC isolates compared with conventional methods. Meanwhile, the elucidation of the transcriptional regulatory networks (TRNs) that are widely conserved in various EHEC isolates is a prerequisite for the prevention and treatment of the infection caused by newly emerging EHEC isolates. However, the analyses of current TRNs are still limited to comprehensively understand the target genes generally co-regulated under various conditions regardless of their genetic backgrounds. In this study, I developed a ML model using independent component analysis (ICA) algorithm, the ICA model, to decompose the large-scale transcriptome data of EHEC into the modulons, which contain the target genes of several TRNs. The locus of enterocyte effacement (LEE) and the Shiga toxin (Stx) modulons mainly consisted of the Ler regulon and the Stx prophage genes, respectively, confirming that the ICA model properly grouped the co-regulated genes of EHEC. Further investigation revealed that the LEE modulon contained the Z0395 gene as a novel member of the Ler regulon, and the Stx modulon contained the thi and cus locus genes in addition to the Stx prophage genes. Concurrently, the Stx prophage genes were also regulated by thiamine and copper ions known to control the thi and cus locus genes, respectively. The modulons of EHEC effectively clustered the genes co-regulated regardless of the growth conditions and the genetic backgrounds. In addition, the changed activities of the individual modulons successfully explained the differential expressions of the virulence and survival genes during the course of infection of EHEC in bovine. Consequently, these results suggested that ICA of the large-scale transcriptome data can expand and enhance the current understanding of the TRNs of EHEC. Altogether, this study presents the ML models to analyze the large-scale genome and transcriptome data of EHEC and thereby investigate the pathogenic potential and TRNs of the pathogen. The ML-based approaches could be used to develop novel methods to prevent and control the infection caused by the newly emerging EHEC.
장출혈성대장균(enterohemorrhagic Escherichia coli, EHEC)은 묽은 설사에서부터 신장에 영구적인 손상에 이르기까지 다양한 질병을 일으키는 병원균이다. 장출혈성대장균은 새로운 균주가 지속적으로 출현해 전세계적으로 식중독 사태를 일으키고 있어 주요한 공중보건문제를 야기하는 식중독균으로 여겨진다. 이처럼 새로이 출현하는 장출혈성대장균을 예방하고 관리하기 위해서는 균이 가지는 잠재적인 병원성을 정확하게 평가할 필요가 있다. 그러나, 잠재적 병원성을 평가하기 위해 사용되는 기존의 혈청형 및 독성유전자조합 방법은 새로운 혈청형 또는 독성유전자조합을 가지는 신종 장출혈성대장균의 병원성을 평가하는 데 한계가 있다. 본 연구는 기계학습(machine learning) 기술을 활용하여 장출혈성대장균이 가지는 전장유전체 정보(whole genome sequencing data)를 활용해 균주의 잠재적 병원성을 평가할 수 있는 support vector machine (SVM) 모델을 개발했다. 개발한 SVM 모델은 기존에 장출혈성대장균 감염을 많이 일으킨 분리원으로부터 분리된 균주들의 병원성을 성공적으로 예측했을 뿐만 아니라, 발병 이력이 있는 균주 및 기존의 방법으로 평가할 수 없는 균주들의 병원성 또한 정확하게 예측했다. 또한, SVM 모델은 잠재적 병원성의 유무만을 예측하는 기존 방법에서 더 나아가, 개별 균주들이 가지는 병원성 정도의 차이를 보다 세밀하게 구분할 수 있었다. 순열중요도분석(permutation importance analysis)을 통해 SVM 모델을 분석한 결과, 병원성에 기여할 것이라 예측되는 중요 유전자 후보들을 발굴할 수 있었다. 결과적으로, 본 연구는 장출혈성대장균의 잠재적 병원성을 예측할 수 있는 새로운 방법인 SVM 모델을 제시했으며, 이를 통해 병원성에 기여할 수 있는 후보 유전자들을 발굴했다. 한편, 다양한 장출혈성대장균에서 널리 보존된 전사조절 네트워크(transcriptional regulatory network, TRN)를 파악하는 것은 새로이 출현하는 장출혈성대장균에의한 감염을 예방하고 치료하기 위해 필요하다. 그러나, 현재까지의 장출혈성대장균 전사조절 네트워크 연구들은 균주의 유전적 배경과 상관없이 다양한 환경에서 공통적으로 조절되는 유전자들을 포괄적으로 동정하고 분석하는데 어려움이 있다. 본 연구에서는 독립성분분석(independent component analysis, ICA) 알고리즘을 사용하는 기계학습 모델인 ICA 모델을 개발했으며, 이를 장출혈성대장균의 대규모 전사체 정보(transcriptome data)에 적용해 각각 독립적으로 공동 조절되는 유전자들의 집합인 모듈론(modulon)을 식별했다. 모듈론 중에는 장출혈성대장균의 주요 독성인자를 암호화하는 LEE (locus of enterocyte effacement) 유전자들로 주로 구성된 LEE 모듈론과 시가독소(Shiga toxin, Stx)를 포함하는 프로파지(prophage) 유전자들로 주로 구성된 Stx 모듈론이 포함돼 있었다. 이는 ICA 모델을 통해 공동 조절되는 유전자 집합을 적절히 식별할 수 있음을 의미한다. LEE 모듈론을 추가 분석한 결과, LEE 모듈론이 새로운 Ler regulon인 Z0395 유전자를 포함하고 있음을 발견했다. Stx 모듈론은 Stx를 암호화하는 프로파지 유전자들 외에 추가로 thi 및 cus locus 유전자들을 포함했다. thi 및 cus locus 유전자들은 각각 티아민(thiamine) 및 구리이온에 의해 조절된다고 알려져 있기 때문에, Stx 프로파지 유전자들의 발현 역시 티아민 및 구리이온에 의해 조절됨을 분자생물학적 실험을 통해 확인했다. 따라서, ICA 모델을 통해 식별한 모듈론들은 장출혈성대장균의 성장 조건이나 유전적 배경에 관계없이 공동 조절되는 유전자들로 구성돼 있음을 확인했다. 또한, 모듈론들을 활용해 장출혈성대장균이 소를 감염 시키는 과정에서 필요한 독성 및 생존 유전자의 발현 조절을 성공적으로 설명할 수 있었다. 결과적으로, ICA 모델로 식별한 모듈론이 장출혈성대장균의 병원성에 중요한 유전자의 전사조절 네트워크를 포괄적으로 이해하고 확장시키는 데 기여할 수 있음을 보였다. 종합적으로, 본 연구는 장출혈성대장균의 대규모 전장유전체 및 전사체 데이터를 분석하는 기계학습 모델들을 개발했으며, 이를 통해 잠재적 병원성과 전사조절 네트워크를 조사하는 새로운 방법을 제안했다. 이러한 기계학습을 활용한 분석 방법은 신종 장출혈성대장균에의한 감염을 예방하고 대처하는 신기술이 될 수 있을 것이다.
Language
eng
URI
https://hdl.handle.net/10371/187941

https://dcollection.snu.ac.kr/common/orgView/000000172200
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share