Publications

Detailed Information

Mass Spectra Prediction through Structural Motif-based Graph Neural Networks : 구조 모티프 기반 그래프 신경망을 이용한 질량 스펙트럼 예측

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박지원

Advisor
윤성로
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
mass spectraGNNsmotifdeep learning
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 인공지능전공, 2023. 8. 윤성로.
Abstract
Mass spectrometry is widely used in various fields such as drug discovery, chemical synthesis, and environmental chemistry for identifying molecular structures. Mass spectra are collections of ionized fragments from a target molecule, and the fragmentation patterns within the spectra contain crucial information about the molecule. In the analysis of mass spectra to identify molecule structures, a common approach is to perform a spectral library search. This method involves matching the unknown spectra with a database of mass spectra from known materials. However, the effectiveness of search-based methods is limited by the availability of the mass spectra database.
In this work, we propose the Motif-based Mass Spectrum Prediction Networks (MoMS-Net) that incorporates structural motifs to predict mass spectra based on molecular structure. A motif refers to a frequently occurring subgraph or a related functional group in molecules. We leverage the information from structural motifs for applying GNNs because motifs are associated with fragmentation patterns and aid in mass spectra prediction.We evaluate our model on various types of mass spectra and demonstrate its superior performance compared to other deep learning models. MoMS-Net can consider substructure at the graph level, allowing it to incorporate long-range dependencies while requiring less memory than the graph transformer model.
질량분석학은재료화학과약물합성분야에서분자구조를식별하는데중요한 역할을 한다. 검색 기반 방법은 일반적으로 질량 스펙트럼 분석에 널리 사용되지만, 가용 데이터의 부족으로 인한 한계가 있다. 이 문제를 해결하기 위해서는 모델을 사용하여 질량 스펙트럼을 생성하여 데이터베이스를 보강해야 할 필요가 있다. 다양한 딥러닝 모델이 질량 스펙트럼 예측에 사용되고 있다. 그래프 신경망(GNN)은 분자를 그래프로 표현할 수 있어 분자 속성 예측에 유용하다. 그러나 GNN은 장거리 의존성을 고려하는 데 한계가 있어 성능이 저하되게 된다. 그래프 트랜스포머는 질량 스펙트럼 예측에서 우수한 성능을 나타내지만 훈련 중에 과도한 메모리를 소비하게 된다.
본 연구에서는 분자 구조로부터 질량 스펙트럼을 예측하기 위해 구조 모티프를 포함하는MoMS-Net모델을제안하였다.모티프는분자내의기능성그룹과관련이 있으며 분자 간의 관계에 대한 의미 있는 정보를 제공하여 분자 속성 예측 과제에서 중요한 역할을 한다. 우리는 데이터셋으로부터 모티프 집합을 생성하기 위해 병합 방법을 적용하였다. 분자가 모티프를 가지고 있거나 두 모티프가 어떤 원자를 공유하는경우에는연결성을갖게되도록분자와모티프로구성된이종모티프그래프를 구성하였다. MoMS-Net 모델은 분자 그래프와 이종 모티프 그래프 각각에 대한 두 개의 GNN으로 구성된다. 우리는 다양한 크기의 모티프 집합과 다양한 모델 구조로 실험을 진행하였다. MoMS-Net은 분자 구조로부터 질량 스펙트럼을 예측하는 데 있어 다른 딥러닝 모델보다 우수한 성능을 발휘하였다. 그래프 수준에서 모티프를 정보를 활용함으로써 장거리 의존성을 효과적으로 고려하였다. 게다가, 우리의 모델은 graph transformer에 비해 더 적은 메모리를 요구하였다. 우리는 모티프의 실제 질량 스펙트럼이 분자의 질량 스펙트럼 예측에 효과가 있다는 것을 발견하였다. 그러나, 예측된 질량 스펙트럼에는 더 작고 잘못된 피크가 많이 포함되어 있었다. 향후 연구에서는 모티프에 대한 질량 스펙트럼의 초기화 방법을 개선하고 잘못된 피크를 방지하기 위해 정규화 기법을 도입할 계획이다. 또한, MoMS-Net을 더 큰 분자와 단백질에 적용할 예정이다.
Language
eng
URI
https://hdl.handle.net/10371/196569

https://dcollection.snu.ac.kr/common/orgView/000000178209
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share