Publications

Detailed Information

Computational analysis of biological pathways in breast cancer subtypes: a visual exploration system and a probabilistic framework : 유방암 아형의 생물학적 경로 : 시각적 탐색 시스템과 확률적 프레임워크

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김인영

Advisor
김선
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
Biological pathwaysGene expressionMachine learningBayesian approach고차원 데이터생물학적 경로유전자 발현량기계학습베이지안 방법
Description
학위논문 (박사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2020. 8. 김선.
Abstract
Breast cancer is cancer that develops from breast tissue and it is the leading type of cancer in women, accounting for 25% of all cases (Brayet al., 2018). Although breast cancer has been studied extensively for several decades, there are a number of issues that remain to be answered. With the rapid development of instrument technologies, a huge amount of molecular data from breast cancer has been produced. Molecular data measured inside breast cancer cells can be very useful to investigate many unresolved issues in breast cancer. However, analysis of molecular data such as genetic mutations and gene transcripts is very difficult since the number of dimensions is huge (over 20,000 up to several millions) and the number of samples or patients is only a few thousands. This is one of the unresolved machine learning problems, that is, analysis of high dimension low sample data. Thus, new computational methods are much needed to study breast cancer at the molecular level.
In this thesis, I addressed this computational challenge by utilizing biological pathways that can be used to explain cancer mechanisms in terms of biological functions, such as cell growth, cell death, and metastatic potentials.
In my doctoral study, I developed two computational methods. A web-based system was developed for exploring pathways in terms of genetic mutations, gene copy number variations, and gene expression levels. A probabilistic framework was developed for determining driver genes from genes in biological pathways.
The first study was to integrate TCGA breast cancer data onto KEGG pathway to visualize the multi-omics data of breast cancer patients. Pathway based multi-omics analysis system is necessary but challenging due to larger sample sizes and higher dimension. BRCA-Pathway, a web-based interactive exploration and visualization system of TCGA breast cancer data on KEGG pathway, was developed to address these difficulties and provide broad perspective of TCGA breast cancer data. Through the first study, it was confirmed that the multi-omics data of breast cancer patients appeared differently for each subtype from the perspective of the pathway. In particular, gene expression data could identify different expression patterns for each subtype in several biologically important pathways.
The second study was to solve the problem of selecting genes specific to the subtype by using different expression patterns from the viewpoint of KEGG pathway for each breast cancer subtype. The difference in the gene expression pattern at the pathway level was represented to a numerical value of the degree of activation in the pathway. The difference in gene expression level for each subtype was quantified and defined as a Gene factor, and the difference in the degree of pathway activation for each subtype was defined as a Pathway factor. Likelihood of gene given subtype and posterior probability of subtype given gene were defined using Gene factor and Pathway factor. Then, genes were ranked by likelihood and posterior probability. It can be seen that the problem of selecting subtype specific gene corresponds to feature selection in the subtype classification model. For this reason, we evaluated the performance of the predictive model with selected genes as features of the classification problem. We also analyzed the biological implications of the selected genes.
In summary, my doctoral thesis proposed how biological pathways that are important domain knowledge can be used to characterize breast cancer subtypes by visually exploring molecular data and by selecting genes in a probabilistic framework to show difference in pathway activation among breast cancer subtypes.
유방암은 유방 조직에서 발생하는 암이며 여성에서 발생하는 암의 25%를 차지하는 여성의 주요 암 유형이다. 유방암은 수십 년 동안 광범위하게 연구되어 왔지만, 여전히 해결해야 할 문제가 많이 있다. 생명공학 기술의 급속한 발전으로 유방암으로부터 대량의 분자 데이터가 생성되고 있다. 유방암 세포 내에서 측정된 분자 데이터는 유방암에서 해결되지 않은 많은 문제를 연구하는 데 매우 유용하게 사용될 수 있다. 그러나, 유전자 돌연변이 및 유전자 전사체와 같은 분자 데이터의 분석은 고려해야 할 특성의 수가 많고 (20,000개에서 수백만까지) 환자의 수가 수천에 불과하기 때문에 매우 어렵다. 이러한 고차원 저샘플 문제는 기계학습에서 해결되지 않은 문제 중 하나이다. 따라서 분자 수준에서 유방암을 연구하기 위해서는 새로운 방법이 필요하다.
본 박사학위 논문에서는 세포 성장, 세포 사멸, 암의 전이와 같은 생물학적 기능의 관점에서 유방암 메커니즘을 설명하기 위해 생물학적 경로를 이용하여 유방암과 그 아형에 대한 문제를 해결하는 방법을 다루었다. 첫 번째는 유전자 돌연변이, 유전자 복제수 변이 및 유전자 발현 수준의 측면에서 생물학적 경로를 탐색하기 위한 웹 기반 시스템을 개발하였고 두 번째는 생물학적 경로를 이용하여 각 유방암 아형 특이적인 유전자를 결정하기 위한 확률적 프레임 워크를 개발하였다.
첫 번째 연구는 TCGA 유방암 데이터를 KEGG 생물학적 경로에 통합하여 유방암 환자의 멀티오믹스 데이터를 시각화하는 것이다. 생물학적 경로 기반의 다중 오믹스 분석 시스템이 필요하지만, 더 큰 샘플 크기와 더 큰 차원으로 인해 어려움이 있다. 이러한 어려움을 해결하고 TCGA 유방암 데이터에 대한 생물학적으로 통합적인 관점을 제공하기 위해 KEGG 생물학적 경로에 대한 TCGA 유방암 데이터의 웹 기반 대화형 탐사 및 시각화 시스템인 BRCA-Pathway를 개발하였다. 첫 번째 연구를 통해, 유방암 환자의 멀티오믹스 데이터가 생물학적 경로 수준에서 각 아형에 대해 다르게 나타나는 것을 확인할 수 있었다. 특히, 유전자 발현량 데이터는 몇몇 생물학적으로 중요한 경로에서 각각의 유방암 아형에 대해 상이한 발현 패턴을 보이는 것을 확인할 수 있었다.
두 번째 연구는 KEGG 생물학적 경로 수준에서 각 유방암 아형별 상이한 발현 패턴을 이용하여 아형 특이적인 유전자를 선택하는 문제를 해결하려고 하였다. 각 유방암 아형이 보이는 생물학적 경로 수준에서의 발현 패턴의 차이는 생물학적 경로의 활성화 점수를 통해 표현되었다. 각 유방암 아형에 대한 유전자 발현량의 차이를 정량화하고 이 값을 유전자 인자로 정의하고, 각 유방암 아형에 대한 생물학적 경로 활성화 정도의 차이를 경로 인자로 정의하였다. 우도와 사후 확률은 유전자 인자와 경로 인자를 사용하여 정의되었으며, 유전자는 각각 우도와 사후 확률로 순위가 매겨진다. 생물학적 경로 정보를 사용하여 각 유방암 아형 특이적인 유전자를 선택하는 문제는 유방암 아형 분류 모델에서의 특징 선택에 해당함을 알 수 있다. 이러한 이유로, 분류 문제의 특징으로서 선택된 유전자를 갖는 예측 모델의 성능을 평가하였다. 또한, 선택된 유전자의 생물학적 의미를 분석하였다.
이 연구의 중요성은 유방암 각 아형 특이적인 유전자가 생물학적 경로 정보에 의해 유도된 기계학습 방법에 따라 선택되었다는 것이다. 이는 생물학적 기능과 밀접한 관련이 있는 생물학적 경로 정보가 유전자 선택 과정에 사용되기 때문에 우리의 방법으로 선택된 유전자는 생물학적으로 해석 가능한 유전자라고 말할 수 있다.
Language
eng
URI
https://hdl.handle.net/10371/169339

http://dcollection.snu.ac.kr/common/orgView/000000162606
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share