Publications

Detailed Information

Chemical Space Embedding for FDA Approved Drugs Using Cascade Autoencoder : 순차적 오토인코더 기반 FDA 승인 약물들의 화학 공간 임베딩

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김정우

Advisor
김선
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
FDA Approved drugCascade AutoencoderChemical space em beddingFDA 승인 약물순차적 오토인코더화합물 공간 임베딩
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2021.8. 김선.
Abstract
Drug discovery requires decade of expensive efforts to meet sufficient needs.
Computer-Aided drug discovery (CADD) is an emerging field of study that
aims to systematically reduce the time and cost of a new durg development
by adapting computer science to identify structural and physical properties
of chemical compounds used as drugs and derive new drug candidates with
similar characteristics. In particular, it is most important to identify the char acteristics of chemical compounds approved by the U.S. Food and Drug Ad ministration (FDA). FDA approved chemical compounds are validated drugs
in terms of toxicity, efficacy of drug and side effects. The question arises here
i
how these chemical compounds are distributed in an embedding space. Tradi tionally, hand-crafted rule is the only way of constructing the chemical space.
Traditional chemical compound representations have made it difficult to clas sify FDA approved chemical compounds. With the advent of the era of big
data and artificial intelligence technology, deep learning is the leading technol ogy that drives to build an embedding space. However, there is few adaptive
methods to identify the embedding space of FDA approved chemical com pounds.
In this work, I propose a framework that encodes features of FDA approved
chemical compounds by constructing a discriminative embedding space. Var ious encoding methods were used to encode information from FDA approved
chemical compounds. The proposed framework consists of three stacked deep
autoencoder modules. The proposed framework effectively integrate the in formation of the chemical compounds by cascade modeling. Connected three
autoencoder modules in cascade is used to continuously use latent represen tation learned from previous modules. Whether FDA approved chemical com pounds have discriminative regions in the embedding space is well visualized
by the proposed framework. And perform machine learning classification tasks
to evaluate whether the latent representation effectively characterize the FDA
approval information. The proposed framework incorporates complex repre sentation information to understand the embedding of FDA drugs. Ultimately,
the framework proposed in this paper can be used as an embedding method
for determining whether or not new drug candidates will be approved.
Keywords: FDA Approved drug, Cascade Autoencoder, Chemical space em bedding
Student Number: 2019-24822
신약 개발시 여러 조건들을 충족하는 약물을 발견하기 위해 수십년의 노력이 필요
하다. 컴퓨터 보조 신약 개발(CADD)은 컴퓨터 과학을 적용시켜 약물로 사용되는
약물의 구조적 및 물리적 특성을 확인하고 유사한 특성을 가진 신약 후보를 도
출함으로써 신약 개발의 시간과 비용을 체계적으로 절감하는 것을 목표로 하는
신흥 연구 분야이다. 특히 미국 식품의약국(FDA)이 승인한 약물의 특성을 확
인하는 것이 가장 중요하다. FDA에서 승인한 약물들은 독성, 효능 및 부작용
측면에서 검증된 의약품이다. 이러한 약물들이 임베딩 공간 상에서 어떻게 분
포되어 있는지에 대한 의문점에서 시작한다. 전통적으로는 전문가의 수작업으로
만든 규칙들로 화합물의 임베딩 공간을 구성했다. 전통적인 화합물 표현만으로는
FDA 승인 약물들을 분류하는 것이 어렵다. 빅데이터와 인공지능 기술의 발전으
로 딥러닝을 이용해 임베딩 공간을 구축한다. 그러나 기존 연구들에선 FDA 승인
약물들의 임베딩 공간을 식별할 수 있는 적절한 방법이 없다.
본 연구에서는 FDA 승인 약물들의 특징을 인코딩하는 프레임워크를 사용해 차
별적인 임베딩 공간을 구축하는 방법을 제안한다. 제안된 프레임워크는 3개의
순차적 딥 오토인코더 모듈로 구성된다. 제안된 프레임워크는 순차적 모델링을
통해 약물의 정보를 효과적으로 통합한다. 순차적으로 연결된 3개의 오토인코더
모듈을 사용하여 이전 모듈에서 학습한 잠재 표현을 지속적으로 사용한다. FDA
승인 화학 화합물이 임베딩 공간상에서 차별적인 영역을 가지고 있는지 여부는
제안된 프레임워크에 의해 시각화된다. 또한 잠재된 표현이 FDA 승인 정보를
효과적으로 특성화하는지 여부를 평가하기 위해 기계 학습 분류 작업을 수행한
다. 궁극적으로, 본 논문에서 제안하는 프레임워크는 신약 후보자의 승인 여부를
결정하기 위한 임베딩 방법으로 사용될 수 있다.
주요어: FDA 승인 약물, 순차적 오토인코더, 화합물 공간 임베딩
학번: 2019-24822
Language
kor
URI
https://hdl.handle.net/10371/177517

https://dcollection.snu.ac.kr/common/orgView/000000167224
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share