Publications

Detailed Information

Clustering-Based Integrated Analysis of Time-Series Gene Expression Data to Identify Stress-Responsive Genes : 시계열 유전자 발현 데이터에서 스트레스 반응 유전자를 검출하기 위한 클러스터링 기반 통합 분석 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

안홍렬

Advisor
김선
Major
공과대학 전기·컴퓨터공학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (박사)-- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2019. 2. 김선.
Abstract
본 논문은 유전자 발현 데이터를 분석할 때의 문제들을 정리하고 그 문제들을 해결하는 방법을 제시한다. 유전자 발현 데이터는 세포 내에 유전자가 활성화된 양을 수치화한 데이터이며

세포의 상태를 모델화하기 위하여 이 데이터를 사용한다. 하지만 세포는 이만 개 이상의 유전자, RNA, 단백질, 기타 화학 물질 등이 유기적으로 작용하여 구성되는 매우 복잡한 시스템이며, 이러한 세포를 모델화하기 위해서는 많은 수의 데이터가 필요하다. 그런데 현재 기술 및 자원적 한계에 의해 충분한 수의 데이터를 확보할 수 없으며, 적은 수의 데이터로 이 복잡한 세포를 모델화해야 하는 것이 유전자 발현 데이터 분석의 핵심적인 문제이다.



본 논문은 적은 수의 데이터로 세포를 효과적으로 모델화하기 위하여 클러스터링과 네트워크 기법을 사용하여 기존의 생물 지식과 공개된 데이터를 통합적으로 이용하는 방법론을 제시한다. 그 구체적인 방법은 다음과 같다. 클러스터링 분석을 통해 개별 유전자를 적은 수의 클러스터로 묶음으로써 특성 차원을 축소하고 모델화의 복잡성을 줄임으로써, 적은 수의 발현량 데이터로 세포의 상태를 모델화하고 해석하는 방법을 제시한다. 대량의 외부 데이터로부터 유전자 네트워크를 구성하고 실험 데이터로 구성한 네트워크와 통합함으로써 생물학적 도메인 데이터와 지식을 네트워크를 형태로 분석 과정에 도입하여 모델의 정확성을 향상하는 방법을 제시한다. 이질적 시간 구조를 가지는 다수의 시계열 데이터를 통합하는 분석에서, 클러스터링 방법으로 유전자의 반응 순서가 보존되는 유전자들을 찾는 방법을 제시한다. 아직 그 분포를 알지 못하는 유전자의 집합을 클러스터링하기 위해, 앙상블 기법 및 비용 최소화 기법 등 최신 클러스터링 기술을 사용하여 계층적 클러스터링 방법을 향상한다.



정리하면, 이 논문은 복잡한 시스템이면서 데이터 개수가 적어 모델화가 어렵고, 시계열 구조가 비균질한 유전자 발현 데이터 분석의 문제를 클러스터링과 네트워크를 기반으로 통합 분석하여 해결하는 방법을 제시한다. 또한 이러한 개발한 방법들을 실제 스트레스 실험 데이터에 적용하여, 가뭄 저항성 벼의 메커니즘을 설명하고, 저온 스트레스에 대해 반응하는 유전자를 검출한다. 제시된 방법론은 컴퓨터 공학의 데이터 분석 분야에서 비슷한 문제를 가진 문제들을 해결하는데 활용될 수 있을 것으로 기대된다.
Microarray and RNA sequencing, highly parallel technologies for the measurement of intracellular RNA molecules, were developed in the 1990s and 2000s. They opened a new era of quantifying the amount of gene activation (expression) for every gene in a cell through a single experiment. Since then, gene expression data have been widely produced to investigate the change of the state of a cell, particularly in response to environmental stress, such as heat, drought, and cold, in plants. However, a cell is one of the most complicated systems in the universe. Understanding and modeling the system of a cell requires a huge amount of data, which we do not yet have. Thus, gene expression data analysis has to address the issue of the lack of data and the development of analytical procedures, models, and algorithms that work on small-sample-size data.



This doctoral study proposes computational methodologies that solve the problem of modeling a highly complex system with small-sample-size data based on clustering and integrated analysis. We can easily understand gene expression data in the format of machine learning data: genes as features and different conditions of samples as classes. In gene expression data, the number of features is generally much greater than the number of samples due to the high cost of measurement of a sample. Performing clustering analysis on gene expression data groups individual genes into several gene clusters, resulting in the reduction of the dimension of features. This doctoral study presents a method that uses clustering analysis to reduce the dimension of features. It shows the improvement of interpreting high-dimension and small-sample-size gene expression data.



In addition, the system of a cell consists of complicated interactions between genes, which leads to a computational problem known as high dependency between features. Introducing external information, domain data, and domain knowledge improves the modeling of relationships between genes to reflect real biological systems. This doctoral study proposes a method that introduces genetic data and knowledge into the analysis by constructing a template biological network. By combining the network with the condition-specific network derived from experimental data, it successfully explains the stress response mechanism of drought-resistant rice.



Moreover, gene expression data are measured at multiple time points along the time axis, which is called time-series data, to track the response of cells after drug or stress treatment. However, they often have a small number of time points, usually less than ten, and different intervals across different time-series samples because of the limitation that the cells die in the process of being measured. The sparsity and heterogeneity of time-domain data in gene expression data make it difficult to clarify the time-domain signals of genes. This study proposes a method to analyze time-series gene expression data by using clustering analysis to extract the meaningful time-domain signal that is supported by many members of genes within the same cluster.



Lastly, clustering analysis is sensitive to the distribution of data objects. However, we do not yet know the distribution of genes in gene expression data. Thus, clustering algorithms for gene expression data are required to work on arbitrarily distributed data. The hierarchical clustering method has been the most widely used clustering method for gene expression data analysis, but it does not always work on arbitrarily distributed data. This study also proposes an improved version of the hierarchical clustering method to work on arbitrarily distributed data by combining effective recent clustering techniques, such as network representation, phase shifting, and cost-optimization-based tree integration.



In summary, this doctoral study proposes clustering-based computational methods for the analysis of gene expression data. Clustering analysis is used for dimension reduction, integration with biology-domain knowledge of genes, extraction of the time-domain signal, and development of clustering on arbitrarily distributed data. In addition, by applying it to actual stress data, this doctoral study explains the mechanism of drought-resistant rice, detects the cold-stress-responsive genes in Arabidopsis, and develops a new hierarchical clustering algorithm. The proposed methodology is expected to be useful for the analysis of other data with similar problems.
Language
eng
URI
https://hdl.handle.net/10371/151891
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share