Publications

Detailed Information

Large Scale Processing System for RNA Sequence Analysis : RNA 염기서열 분석을 위한 대규모 처리 시스템

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김한주

Advisor
윤성로
Major
공과대학 전기·컴퓨터공학부
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
RNA sequencebioinformaticslarge-scale data processingdatabasemachine learningdeep learningparallel computingdistributed computing
Description
학위논문 (박사)-- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2018. 2. 윤성로.
Abstract
2000년대에 들어와서 리보핵산 (RNA)의 연구는 새로운 전기를 맞이하게 되었다. 인간 게놈 프로젝트등의 결과로 알려진 바 실제로 단백질로 작용 번역되는 유전자의 비율은 수 %에 불과했고, 대부분의 non-coding gene 들은 직접 여러가지 생체 반응이나 유전자 발현에 참여하고 있다. miRNA로 대표되는 이러한 기능성 비발현 RNA 들의 연구는 빅데이터 시대를 맞이한 컴퓨터 정보기술의 발전에 힘입어 더욱 가속화되고 있다.
그 동안 축적되어온 RNA의 염기서열과 구조, 그리고 그들이 이루는 상호작용에 대한 정보량은 데이터의 규모에서 보았을 때, 대규모 처리를 위한 여러가지 기법들을 적용하여 그 효율을 더욱 향상시킬 수 있음을 기대할 수 있다. 본 학위논문에서는 RNA의 상호작용 예측과 구조비교와 분석에 관한 방법론, 그리고 마지막으로 최근들어 RNA 분석 접근 방법 중 급부상하고 있는 딥러닝 기반의 접근 방식을 분산처리하는 프레임워크를 제안하였다.
첫 번째로 다룬 것은 miRNA와 mRNA의 상호작용을 예측하는 것이다. 몇몇 종에 대한 자가 miRNA-mRNA 간의 상호작용에 대한 연구는 많이 이루어져 있지만, 바이러스와 그 숙주에 관한 상호작용은 대규모로 탐구된 사례가 없었다. 우리는 바이러스의 miRNA와 숙주의 mRNA 간의 상호작용을 여러가지 알고리즘을 이용해 예측하고 미리 계산된 결과를 대규모 데이터베이스로 구축하고 빠른 검색과 비교를 가능하게 하였다.
두 번째는 RNA의 구조에 관한 문제이다. 우리는 고비용을 요구하는 물리적인 방법 대신에 화학적인 방법을 통해 얻어진 RNA 구조에 관한 정보를 정량화하여 분석할 수 있는 온라인 도구를 제안하여 RNA의 구조를 예측할 수 있도록 하였다. 더불어 얻어진 구조정보를 적절하게 비교하는 비교 방법들을 비교하고 트리기반의 거리 측정 알고리즘을 이용하여 실제로 유효한 분류 결과를 얻을 수 있음을 보였다.
마지막으로, 현재 RNA 염기서열 비교나 식별에서 좋은 결과를 보여주고 있는 딥러닝 기반 접근을 위한 분산 플랫폼을 제안하였다. Apache Spark 기반의 저비용 분산 시스템에 데이터 병렬화 기반의 딥러닝 학습을 수행할 수 있는 알고리즘과 구현체를 제안하여 실제로 성능향상을 보이고 그 이용 가능성을 제시하였다.
Since the early 2000s, the studies about ribonucleic acid (RNA) have come to a new turning point. As a result of the human genome project (HGP), only few percentage of genes are translated into proteins. From the other non-coding genes, many non-coding functional RNAs participate in various gene expression process. The researches of these functional RNAs, for example miRNA interaction, have advanced with the breakthrough in computer technology in the era of the big data.
In terms of volume and scale, the accumulated sequences and structures of RNA and their interactions can be treated from the viewpoint of big data. Thus, we expect the RNA analysis to be further improved by applying various techniques for large-scale processing on the scale of the data. In this thesis, we propose to building RNA interaction prediction database, structure comparison, and analysis. Additionally, we also propose a distributed framework for deep learning which is emerging as a new kind of approach for RNA analysis.
First, we build an integrated database for interactions between viral microRNA and host target genome. Many studies have reported on the interactions between autologous miRNAs and mRNAs for several species, however there has been no exploration of the interaction of viruses with their hosts. We predicted the interactions between miRNAs of the virus and the host mRNA using a variety of algorithms and constructed the computed results into a largescale database, enabling rapid search and comparison. The second problem is about structures of RNA. We propose an online tool to quantify and analyze
the pairings on the RNA structure obtained through chemical methods instead of the physical method that requires high cost. In addition, we proposed a tree kernel based distance metric for RNA structures, and compared the treebased distance measure methods that compare the known structure, and show that it assists classifiers in classifying the RNA structure by category. Finally, we propose the distributed deep learning framework for supporting RNA sequence comparison and identification. We propose an communication efficient algorithm and implementation for training deep neural networks with data parallelism in Apache Spark based commodity system, and show the speed-up by the results of image classification and sequence-to-sequence examples.
Language
English
URI
https://hdl.handle.net/10371/140687
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share