Publications

Detailed Information

Bayesian Reaction Optimization Guided by Machine Learning Models for Synthesis Conditions and Yield : 합성 조건 및 수율 기계학습 모델을 이용한 베이지안 반응 최적화

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

권영천

Advisor
김선
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Bayesian OptimizationOrganic synthesisExperimental condition optimizationGenerative modelingMachine learningDesign of experimentsQuantifying synthetic feasibility
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 8. 김선.
Abstract
합성 반응 최적화는 신약, 신소재 발견 가속화를 위한 필연적 도구다. 목적에 따라 새롭게 설계된 분자 구조를 합성하려면, 다양한 실험 조건 변수들을 최적화해야 한다. 신속하게 최적 조합을 찾는 것은 신약, 신물질 개발의 긴 주기를 줄일 수 있는 핵심 요소 중 하나다. 유기 합성물은 신약, 광학, 반도체, 베터리 소재 분야까지 다양한 산업에 직접적으로 기여하며 특히, 합성 실험은 매우 높은 금전적 비용, 합성 시간 그리고 전문가 인력이 요구되기 때문에 개발 시간을 단축시키는 것은 아주 중요한 일이다. 그러나 빠르게 합성 조건을 찾아 적절한 합성법을 제안하기 위해서는 몇 가지 문제가 있다. 먼저, 모든 실험들은 독립적 관계를 가지기 때문에 기존의 최적화 방법론을 활용하기 위해서는 cold-start 문제를 가지고 있다. 또한 기계학습을 위해 3차원의 분자구조에 맞는 표현자를 고려해야 하며, 편향된 실험 데이터와 유기 합성의 미지영역에서 기인하는 난해한 합성 난이도 수치화는 최적화 과정을 더욱 어렵게 만든다. 본 박사학위논문은 축적된 실험데이터를 활용하는 기계학습적 접근법과 베이지안 최적화 기법을 융합해, 효율적으로 탐색 범위를 정하고, 실험의 난이도를 수치화 하여 최적화전략을 구성하는 방법과 반복되는 실험 결과를 동적으로 최적화전략에 반영해 합성 최적화의 trade-off 문제를 풀도록 제안한다. 본 연구는 최적화를 위한 탐색 영역을 효과적으로 줄이고 합성 난이도를 수치화 해 효율적인 최적화 전략을 취할 수 있도록 유도하는 것을 목적으로 한다. 첫 번째 연구는 입력되는 반응, 합성물들의 구조정보에 맞춰 수많은 조건 탐색 범위를 효과적으로 줄이는 것에 있다. 실험 합성 조건들의 조합은 적게는 수천개에서 많게는 수십만개의 조합이 가능하며 현실적으로 모두 실험할 수 없다. 본 연구에서는 입력된 합성 반응, 합성물의 3차원 분자구조 정보를 그래프 형태의 표현자를 생성해 조건 간 의존성을 고려하여 범위 내에서 다양한 조건 조합을 생성하는 모델을 제안했다. 기존에는 입력되는 반응 정보에 맞춰 조건 별 후보들의 순위를 매기는 형태로 접근했지만, 제안하는 모델은 variational auto-encoder를 활용해 조건 간의 궁합을 학습할 수 있도록 해 무의미한 조건 조합을 피하도록 설계해 다양하면서도 정확한 조건 조합을 예측하는 것이 가능했다. 두 번째 연구는 입력된 반응, 합성물, 조건 시약 구조 정보를 모두 학습에 용이하며 3차원 분자구조 정보를 최대한 보존할 수 있는 그래프 형태의 표현자를 생성하고 실험의 수율을 예측하는 것에 있다. 특히 합성 실험 논문에서 추출하고 정제한 100만건의 합성 실험 데이터는 다소 편향적이며 비일관적인 데이터가 존재해, 정확도가 높은 수율 예측 모델을 만들기 위해서 비일관적인 실험 상황에서는 모델의 불확실성이 높아 지도록 구성했다. 학습된 모델을 토대로 예측된 수율값과 모델 간의 편차를 활용해 합성실험의 난이도를 수치화 했으며 합성 실험의 수율을 예측하는 기존 연구들에 비해 정확도 측면뿐만 아니라 편향되어 부족한 데이터에서도 성능을 개선했다. 세 번째 연구는 위 모델들을 활용해 합성 실험 조건 최적화에 대한 연구다. 효율적으로 좁혀진 탐색 범위에서 예측된 수율값과 불확실성을 토대로 실험의 우선순위를 정해 실험을 시작한다. 실험 결과가 순차적으로 입력되면 베이지안 최적화 방법의 예측 모델을 학습하고 기존 기계학습의 예측 결과 값과의 편차에 따라 다음 실험 조건의 우선순위를 결정짓는 기계학습 모델 결과, 베이지안 최적화 모델, 두 모델의 가중치를 조절한다. 실험이 진행됨에 따라 기계학습 모델의 예측값의 오차가 크고 실제 수율값이 지속적으로 좋지 못한 경우, 실험의 난이도가 높고 학습데이터 범위 밖의 실험으로 판단해 베이지안 최적화 모델의 가중치를 높이며 좁혔던 조건 범위를 점차적으로 늘려 나가도록 한다. 이러한 접근은 최적화 전략의 방향이 쉬운 실험은 exploitation 할 수 있게, 난이도가 높은 실험은 exploration 할 수 있게 함으로써 trade-off 최적화 문제를 효율적으로 풀도록 설계 되었다. 결론적으로, 본 박사학위 논문은 유기합성 실험의 조건 최적화를 위해서 탐색 범위를 효과적으로 줄이고 합성 실험의 난이도를 수치화 해 효율적으로 탐색할 수 있도록 하는 실험 최적화 기법을 제안하며, 기존 최적화 연구와 비교하였으며 추가적으로 실제 합성 자동화 장비를 통해 반응 최적화 성능을 검증했다.
Optimization of synthetic reactions represents a crucial step in expediting the exploration of innovative pharmaceuticals and materials, serving as an indispensable tool. To achieve a newly designed molecular structure that meets the desired properties, the optimization process involves skillfully navigating through diverse parameters associated with experimental conditions. Rapid identification of optimal reaction conditions stands as a pivotal element in mitigating the protracted cycle of discovering new drugs and materials. Given the substantial financial expenses, time investment, and specialized expertise required for synthetic experiments, it becomes imperative to minimize the developmental timeline effectively. However, despite the need for expedited exploration of suitable reaction conditions, there are several limitations to consider. Traditionally, the search for best conditional combinations has involved using design of experiment that require searching various literature sources. These approaches can be somewhat passive and inefficient, relying heavily on the knowledge and experience of synthesis researchers. Furthermore, machine learning models that predict reaction conditions solely based on three-dimensional molecular structure information have their own limitations, as the selection of appropriate representation and the consideration of condition compatibility are not clearly defined. Lastly, quantifying the difficulties associated with synthetic processes is crucial for optimizing strategies, yet it remains a challenging task. In the present doctoral dissertation, I put forth a proposition to address the trade-off quandary in chemical reaction optimization. This proposal entails a fusion of machine learning methodologies and Bayesian optimization techniques, leveraging accumulated experimental data. The objective is to efficiently delineate the search space, gauge the complexity of experiments, devise an optimization strategy, and dynamically integrate the outcomes of iterative experiments into the strategy. The primary goal of this study is to significantly diminish the search domain for optimization while quantifying the synthesis level, thereby facilitating the guidance of efficient optimization strategies. The first focal point of this research aims to efficiently narrow down the extensive array of conditions that need to be explored to align with the input reactions and structural information of the compound. Given the impracticality of conducting experiments on the vast number of potential combinations of synthesis conditions, I propose the use of a generative model that utilizes a graph-based representation of the input synthesis reaction and incorporates three-dimensional molecular structure details. This model generates diverse sets of condition combinations within a specified range, while considering the interdependencies among the conditions. In contrast to conventional approaches that rank candidates solely based on input reaction information, the proposed model incorporates a variational auto-encoder to learn the compatibility between conditions. Consequently, it enables the prediction of diverse yet accurate condition combinations, effectively avoiding the inclusion of irrelevant or meaningless combinations. The second aspect of this study aims to predict the yield of a chemical synthesis reaction while also accounting for the uncertainty associated with the prediction outcomes. Additionally, it involves generating a graph-based structural representation to capture the three-dimensional structural information of all reagents involved in the chemical reaction for machine learning purposes. Notably, the dataset employed comprises 1 million synthesis experiment records extracted and refined from research papers. To develop a highly accurate yield prediction model, I introduce a configuration that enhances model uncertainty in situations characterized by inconsistencies in experimental data. By quantifying the difficulty of the synthesis experiment through the deviation between the predicted yield value and the model based on learned patterns, this approach improves not only accuracy but also addresses issues related to bias and insufficient chemical reaction data, thereby surpassing previous studies in the field of synthesis experiment yield prediction. The final study aims to optimize the combination of reaction conditions by leveraging the condition generation model and synthesis difficulty quantifying model introduced earlier. The optimization strategy entails defining the exploration region of conditions based on the synthetic representation (reactants and product structures) using the generative model. The priority is then determined by the yield prediction model, leading to the identification of 10 initial combinations of reaction conditions. Subsequently, actual synthesis experiments are conducted using the selected conditions to measure the yields obtained. A surrogate model (Gaussian process) of the Bayesian optimization algorithm is trained solely on the yields derived from these synthesis experiments. Once the initial 10 experiments are completed, the results from the condition acquisition function and the Bayesian optimization, chosen as the machine learning-based yield prediction models, are combined to select the subsequent combination of conditions to be tested. The weights assigned to these two acquisition functions are adjusted by evaluating the deviation between the machine learning-based yield prediction model value and the actual yield value. This comprehensive approach ensures an efficient optimization strategy that takes into account the difficulty of synthesis while demonstrating its performance across various optimization models. In conclusion, this doctoral dissertation proposes an experiment optimization technique for exploring suitable conditions of organic synthesis experiments. It effectively reduces the exploration range and quantifies the difficulty of synthesis experiments, facilitating efficient exploration. The performance of the proposed approach is validated using real synthesis automation equipment.
Language
eng
URI
https://hdl.handle.net/10371/196488

https://dcollection.snu.ac.kr/common/orgView/000000177548
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share