Publications

Detailed Information

GalaxyWater: Predicting Positions of Water Molecules on Protein Structure : 단백질 구조 인근의 물 분자 위치 예측 방법에 대한 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박상우

Advisor
석차옥
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
protein-waterinteractionwatersitepredictionstatisticalpotentialconvolutionalneuralnetwork
Description
학위논문(박사) -- 서울대학교대학원 : 자연과학대학 화학부, 2022. 8. 석차옥.
Abstract
Most proteins in the living cell function in an aqueous solution, and protein molecules interact closely with water molecules. These interactions play critical roles in determining the structure and physiological function of proteins. Methods for predicting the structure or interaction of proteins consider the interaction between protein and water either implicitly or explicitly. Typical implicit solvent models consider protein-water interaction by treating solvent as a continuous dielectric medium. Such models can effectively evaluate the important electrostatic interactions with much cheaper computational costs than simulating proteins in explicit water by molecular dynamics simulation. Therefore, implicit water models are employed for protein structure prediction and docking, unlike molecular dynamic simulations. However, implicit models do not consider specific, short-range, orientation-dependent hydrogen bonds between water and protein molecules. Specific hydrogen bond interactions with water molecules are known to be involved in the structure and function of some proteins. Therefore, it is essential to consider such water molecules explicitly for detailed description and accurate prediction of protein structure and function even in the framework of implicit solvent models. 3D-RISM is an elegant statistical mechanical method that can predict essential water molecules making specific interactions with a given protein structure using a molecular mechanics force field and an integral equation theory.
In this thesis, two methods for predicting water positions on a given protein structure are introduced. The first method is based on a new statistical potential that describes interactions between protein atoms and water molecules. The potential was derived from protein structures experimentally resolved with water molecules. A crucial part of the potential that distinguishes from other conventional potentials is consideration of the solvation environment of protein atoms during statistical derivation. This method is about 180 faster than the method based on 3D-RISM and has similar or higher performance.
Further performance improvement was achieved by adopting a machine learning approach. This method trained a convolutional neural network (CNN) on experimentally resolved structures to recognize structural patterns that favor water-binding on the protein surfaces. This method is about 44 times faster than 3D-RISM when GPGPU was used. Furthermore, the performance of locating water molecules at protein-protein interfaces and protein-ligand binding sites is also improved compared to other existing methods
대부분의 생체 단백질은 수용액 상태에서 존재하며, 단백질 분자는 물 분자와 많은 상호작용을 일으킨다. 이러한 상호작용은 단백질의 구조나 기능에 중요한 역할을 한다. 따라서 단백질의 구조와 기능을 예측하는 방법들은 단백질과 물 분자 사이의 상호작용을 직, 간접적으로 고려하게 된다. 간접적으로 물과 단백질 분자 사이의 상호작용을 고려하는 방법으로는 물을 일종의 유전체로 가정하는 방법을 사용하는데, 이러한 방법은 각각의 물 분자의 위치를 고려할 필요가 없기 때문에 비교적 계산 비용이 낮고, 물과 단백질 분자 사이의 상호작용 중 많은 부분을 차지하는 정전기적 상호작용을 모사할 수는 있지만, 물 분자의 위치에 따라 크게 달라질 수 있는 물과 단백질 사이의 수소결합과 같은 근거리 상호작용을 모사하기 어렵다는 문제점이 있다. 특히 물과 단백질 분자 사이의 근거리 상호작용은 단백질의 기능에 영향을 끼치기 때문에 단백질의 기능을 예측하는 방법에서는 단백질과 근거리 상호작용을 할 가능성이 높은 물 분자들의 위치와 단백질과의 상호작용을 예측하는 것이 중요할 수 있다. 물과 단백질 분자 사이의 근거리 상호작용을 고려하기 위해서는 물 분자의 위치를 직접적으로 반영하여 물과 단백질 사이의 상호작용을 모사하며, 주로 분자동역학 시뮬레이션이나 3D-RISM이 사용된다. 이러한 방법들은 물과 단백질 사이의 상호작용을 더욱 자세하게 모사할 수 있지만 계산비용이 높다는 문제가 있으며, 단백질과 물 사이의 상호작용에 상당한 기여를 하는 단백질에 결합된 물의 위치를 잘 예측하지 못한다는 문제도 존재한다.

따라서, 본 학위 논문에서는 단백질 주변의 물 분자의 위치를 예측하는 2가지의 방법을 제시하였다. 첫번째 시도는 단백질을 구성하는 원자의 용매화 상태를 고려하여 물과 단백질 사이의 통계기반 포텐셜 함수를 이용하여 단백질 주변의 물의 위치를 예측하는 방법이었다. 이 방법은 3D-RISM 방법에 비해서 평균적으로 180배의 계산 속도 향상을 보여주었으며, 단백질에 결합된 물 분자의 위치를 예측하는 성능은 3D-RISM과 비슷하거나 더 높았다. 그러나 이 방법은 수소결합에 직접적으로 참여하지 않는 단백질 원자와 물 분자 사이의 포텐셜 우물을 만들어지는 현상이 존재하였기 때문에 제한된 예측 성능을 보여주었다. 이러한 문제로 인하여 물 분자를 수용할 수 있는 단백질의 구조 패턴을 인식할 수 있는 Convolutional neural network를 이용한 물 분자 위치 예측 방법을 만들었고, 통계 기반 포텐셜 함수를 이용한 물 분자 위치 예측 방법에 비해 더욱 높은 예측 성능을 보였다. 이 방법은 GPGPU를 사용하였을 경우, 3D-RISM을 사용한 방법에 비해 44배의 속도 향상을 보였고, CPU만을 사용했을 때에도 58%의 속도 향상을 보였다. 예측 성능의 경우, 단백질 분자의 결정 구조에 포함된 물 분자의 수의 3배의 물 분자의 위치를 예측했을 때, 예측된 위치가 결정 구조에 존재하는 물 분자의 위치의 1Å 이내에 있을 확률이 75% 이상이었다.
이 논문에서 제시된 방법들을 이용하여 단백질 주변의 물의 위치를 더 정확히 예측할 수 있다. 나아가서 단백질-리간드 도킹을 할 때, 단백질에 붙잡혀있는 물 분자의 위치를 고려하여 더욱 단백질-리간드 도킹을 할 수 있을 것으로 예상된다.
Language
eng
URI
https://hdl.handle.net/10371/188624

https://dcollection.snu.ac.kr/common/orgView/000000172243
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share