Publications

Detailed Information

Flow network model for detection and quantification of gene fusion : 유전자 융합 검지, 측량을 위한 플로우 네트워크 모델

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

고세윤

Advisor
김선
Major
자연과학대학 협동과정 계산과학전공
Issue Date
2014-08
Publisher
서울대학교 대학원
Keywords
gene fusionmin-cost flowalternative splicing유전자 융합플로우 네트워크대체 스플라이싱
Description
학위논문 (석사)-- 서울대학교 대학원 : 협동과정 계산과학전공, 2014. 8. 김선.
Abstract
유전자 융합은 암 종양의 발달의 중요한 요인 중 하나이다. 종양 이질성은 종양세포들 안에 다양한 표현형과 변이가 존재함을 말하는데, 대체 스플라이싱은이 종양 이질성의 대표적인 예이다. 따라서 유전자 융합의 종양 이질성 연구를위해 융합 유전자의 대체 스플라이싱을 모델링하여 다양한 융합 유전자의 발현을 확인할 수 있다. 많은 대체 스플라이싱 모델을 활용한 도구들은 스플라이싱그래프 상의 경로를 일일이 열거해 가며 모델링하기 때문에 변수의 개수가 많아져 많은 수의 후보를 필터링해야 한다. 유전자 두 개의 융합을 모델링하는문제에서는 단순 대체 스플라이싱 모델에 비해 모델링해야 되는 엑손의 수가늘어나게 되기 때문에 이러한 방식으로 문제를 해결하기에는 너무나 많은 필터링을 필요로 하게 된다. 본 연구에서는 네트워크 플로우 모델을 이용한 모델링을 활용하여 전사 모델을 필터링하기 전에 최적화 문제를 푼 뒤 휴리스틱을이용하여 그래프 상의 경로를 찾아 전사 모델을 찾는다. 우선 쌍끝 RNA-서열데이터를 이용하여 융합 스플라이싱 그래프와 각 엑손(꼭지점), 결합점(변)의커버리지를 계산한 뒤 이 가중 그래프를 표준적인 볼록 최소-가격 플로우 문제로 변환하여 문제를 풀고, 그 결과 나온 플로우를 휴리스틱을 이용하여 여러개의 경로로 분해하였다. 각각의 경로는 각각의 전사 모델을 나타내게 된다. 이방법을 이용하여 융합 유전자 후보군에서 실제 융합 전사체의 존재를 확인할수 있었다. 또한, 이 방법을 다른 유전자 융합 검지 도구에 비해 가장 많은 위양성 결과를 보여준 Chimerascan에 적용하여 약간의 수정을 거쳐 필터링하는방법으로 TopHat-Fusion과 deFuse보다 좋은 F3 점수를 갖는 분류 결과를 얻을수 있었다.
Gene fusion is a phenomenon known to have an important role in tumour cells. Tumour heterogeneity is a term describing that tumour cells have multiple morphologies and phenotypes including gene fusion. As tumour heterogeneity can be explained by using alternative splicing model, one may model fusion gene transcript in the same way interpret tumour heterogeneity. However, it is hard for many alternative splicing tools to compute fusion gene models as they have to enumerate paths from the splicing graph. A rigid filter is necessary in this case. For gene fusion problem, the number of exons to model is doubled, making computation much more complex, and filtering can be deemed too heavy.
In this thesis, the research was conducted by using a recent alternative splicing tool that directly models splicing graph and solves the optimization problem over that graph is used. By doing it, nothing is filtered out before solving optimization problem. The splicing graph and coverage of each exon (node) and junction (arc) are computed based on paired-end RNA sequence data. Then the graph is transformed to canonical convex min-cost flow problem. Then the flow is decomposed into paths which model transcripts after solving time-consuming optimization problem using a simple heuristic. The results show that this approach in fact works as a sensitive classifier for fusion candidates with only a few paired-end fragments that support the fusion. The method outperformed TopHat and deFuse when applied as a filtering scheme to Chimerascan, whose fusion candidates have the most false positives, in terms of $F_3$ score, with slight modification.
Language
English
URI
https://hdl.handle.net/10371/131252
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share