Publications

Detailed Information

신약탐색을 위한 다중채널 기반의 인공지능 구조 설계 : A study on multi-channel based AI architecture design for drug discovery

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이문환

Advisor
김홍기
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
인공지능딥러닝신약탐색다중 오믹스 통합약물-타겟 연관관계 예측
Description
학위논문(박사) -- 서울대학교대학원 : 치과대학 치의과학과, 2023. 2. 김홍기.
Abstract
Designing new drugs with desired efficacy remains a challenge for the pharmaceutical industry and requires a cost-intensive process. In particular, the efficiency problem of new drug development represented by Eroom's law is in stark contrast to the rapid technological development in other fields. Since the 1950s, the number of new drugs approved by the FDA at $1 billion in R&D costs has halved about every nine years. Recent advances in disease biology and the use of bioinformatics-based biomedical big data have slightly increased the efficiency of new drug development. However, the number of new drugs approved by the FDA with a R&D cost of $1 billion is still limited to less than one.
Recently, attempts to increase the R&D efficiency of new drug development by using predictive models based on artificial intelligence are increasing. For example, the identification of drug-target protein interactions (DTI) is a basic step in the discovery of drug candidates. DTI plays an important role in various applications such as discovery of new drug candidates, repurposing of drugs, and prediction of off-target or side effects. For this purpose, from traditional machine learning models to modern neural network models are being utilized to predict DTI. However, there is still room for improvement in that the drug candidate or target protein is expressed with only one type of features for each drug and target protein.
In addition, the efficacy and heterogeneity of different anticancer drugs for different cancer patients is a challenging task to be solved in the development of new anticancer drugs. In particular, tumor heterogeneity across the genome, transcriptome and epigenome can impair the efficacy of anticancer drugs. To overcome this, artificial intelligence models for multi-omics integration have been proposed to utilize various levels of biological data. However, existing AI models have limitations in that they are vulnerable to the inherent complexity and noise of biological data because different types of omics data are constructed as a single, one-dimensional feature. Therefore, it is also reported that performance can be worse than when using single omics data.
Therefore, in this study, we propose that the AI model learn various biological aspects by building the features of each data through muilti-channels. First, for the identification of DTI, a multi-channel paired input neural network (MCPINN) was proposed. MCPINN maximizes representation learning ability by utilizing three approaches of DNN: classifier, feature extractor, and end-to-end learner. MCPINN utilized various levels of features as input into multiple channels and incorporated those features. MCPINN showed the highest performance in performance and training speed. In addition, MCPINN utilizes transfer learning to improve the performance of toxicity prediction.
In addition, in this study, a gene-centric multi-channel (GCMC) architecture was constructed for predicting anticancer drug responsiveness. GCMC transforms multi-omics data into a three-dimensional tensor, and a new dimension expresses the omics type. GCMC can extract gene-centric new features by integrating multi-omics profiles for each gene. GCMC showed better performance than the previous best performing model in 265 cancer cell line data, TCGA patient data, and PDX patient-derived mouse model data. In addition, GCMC can flexibly utilize optimal omics types to improve performance for each drug task. These results suggest that GCMC can integrate multiple omics profiles in a gene-centric manner to improve performance and feature extraction capabilities.
새로운 약물이 원하는 효능을 갖도록 설계하는 것은 제약 산업에서 여전히 어려운 과제로 남아있으며 비용 집약적인 과정이 요구된다. 특히 Eroom의 법칙으로 대표되는 신약 개발의 비효율성 문제는 타분야의 급속한 기술발전과 매우 대조적이다. 1950년대 이래로 10억 달러의 연구개발 비용으로 FDA에서 허가된 신약의 수는 9년마다 약 절반으로 감소해왔다. 비록 질병 생물학의 발전과 생물정보학 기반의 의생명빅데이터 활용을 통해서 신약개발의 효율성을 개선하려 노력하고 있으나, 현재 10억 달러의 연구개발 비용으로 FDA에서 허가된 신약의 수는 1개 이하에 머무르고 있는 실정이다.
최근 신약개발의 연구개발 효율성을 높이기 위하여 인공지능 기반의 예측모델을 활용하는 연구가 증가하고 있다. 예를 들어서, 약물-표적 단백질 상호작용 식별은 약물 후보물질 발굴의 기초단계로써, 신약후보 선도물질 탐색, 약물 용도 변경, 오프 타겟 또는 부작용 예측과 같은 다양한 응용분야에서 중요한 역할을 한다. 이를 위해 전통적인 기계학습 모델부터 최신의 신경망 모델이 약물-표적 상호작용을 예측하기 위해 활용되고 있다. 그러나 약물 후보물질 또는 표적 단백질을 하나의 특질로만 표현한다는 점에서 여전히 개선의 여지가 남아있다.
이에 더해서, 암 환자 마다 상이한 항암제의 효능과 이질성은 항암제 신약 개발에서 해결해야할 도전적인 과제이다. 특히 유전체, 전사체 및 후성 유전체 전반에 걸친 종양 이질성은 항암제 치료 효능을 손상시킬 수 있다. 이를 극복하기 위해 최근 다양한 층위의 생물학적 데이터를 활용하는 다중 오믹스 톻합 모델이 개발되고 있다. 그러나 기존의 통합 기법들은 다양한 오믹스 데이터를 동일한 차원의 특질로 구축하기 때문에 생물학 데이터 특유의 복잡성과 노이즈에 취약해진다는 한계가 있다. 이에 더해서, 단일 오믹스 데이터를 활용할 때보다 성능이 나빠지는 결과도 보고되고 있다.
본 연구에서는 각 데이터가 가진 특질을 다양한 채널로 구축하여 인공지능 모델이 다양한 생물학적 측면을 총체적으로 학습하도록 제안한다. 첫째, 약물-타겟 단백질 상호작용의 식별을 위해서 다중 채널 기반의 쌍입력 신경망(MCPINN)을 구축했다. MCPINN은 신경망의 3가지 활용 기법인 분류기, 특질 추출기, 그리고 종단 간 학습기를 활용하여 표현학습 능력을 극대화한다. MCPINN은 특질의 다양한 표현형을 다중 채널에 입력하여 활용하고 그 특질을 상보적으로 통합했다. MCPINN은 모델의 성능과 학습속도에서 가장 높은 성능을 보였다.
이에 더해서, 항암제 반응성 예측을 위해서 유전자 중심의 다중 채널(GCMC)을 구축했다. GCMC는 다중 오믹스 데이터를 3차원 텐서로 변환하며 새로운 차원은 오믹스 타입을 표현한다. GCMC는 각 유전자에 대한 모든 오믹스 채널의 특질을 통합하여 유전자 중심의 새로운 특질을 추출할 수 있다. GCMC는 265개의 암세포주 데이터와 TCGA 환자데이터, 그리고 PDX 환자 유래 생쥐 모델 데이터에서 기존의 최고 성능 모델보다 더 나은 성능을 보여주었다. 또한 GCMC는 다중 오믹스 프로파일을 균형있게 조합하여 예측 성능을 향상시킬 수 있다. 이러한 결과는 GCMC가 유전자 중심 방식으로 다중 오믹스 프로파일을 통합하여 성능 및 특질 추출 기능을 향상시킬 수 있음을 시사한다.
Language
kor
URI
https://hdl.handle.net/10371/194438

https://dcollection.snu.ac.kr/common/orgView/000000174674
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share