Publications

Detailed Information

그래프 풀링을 활용한 공간전사체 데이터 스폿의 군집화 : Clustering Spots of Spatially Resolved Transcriptomics Data with Graph Pooling

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이동주

Advisor
윤형진; 김광수
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
공간전사체학군집화딥러닝그래프 신경망그래프 풀링
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 바이오엔지니어링전공, 2023. 2. 윤형진
김광수.
Abstract
공간전사체학은 조직 슬라이드에서 세포의 위치 정보와 유전자 발현을 함께 측정할 수 있는 최신 기술이다. NGS 기반의 공간전사체 데이터는 스폿 단위로 유전자 발현을 측정하는데, 여러 가지 하위 분석을 위해서는 비슷한 스폿들을 군집화하는 과정이 필요하다. 하지만 기존의 군집화 방법들은 공간 정보를 활용하지 않고 유전자 발현 정보만을 활용하여 군집화를 수행하고 있다. 따라서 본 연구에서는 공간전사체학 기술로 얻을 수 있는 유전자 발현, 조직 이미지, 물리적 위치 정보를 모두 활용한 군집화를 수행하기 위해, 공간전사체 데이터를 그래프 형태로 모델링한 다음 그래프의 정점을 군집화하는 그래프 풀링 신경망 모델을 사용하였다. 유전자 발현 특성은 각 스폿의 정규화된 유전자 발현량을 사용하였으며, 스폿을 포함하는 H&E 이미지 패치로부터 ResNet50 이미지 분류 모델의 전이학습을 통해 조직 이미지 특성을 추출하였다. 두 특성 행렬은 전역적 공간자기상관계수를 기준으로 최적의 랭크를 선정하는 비음수 행렬 분해를 통해 적절한 차원으로 축소하였다. 그래프를 구성하는 방법은 2가지를 사용했는데, 하나는 조직 이미지 특성을 유전자 발현과 함께 그래프 정점요소로 사용하는 방법이고 다른 하나는 조직이미지 거리와 물리적 거리를 결합하여 간선 연결에 활용하는 방법이다. 그래프 풀링 신경망 모델의 풀링 레이어로는 MinCutPool 또는 DMoNPool을 활용하였다. 모델의 군집 결과와 조직학자의 표기의 ARI를 평가 지표로 삼아, 그래프의 구성 방법과 그래프 신경망 모델의 여러 조합에 대한 정량 평가를 수행하였다. 실험 결과에 따르면 조직 이미지를 활용하지 않고 들로네 삼각분할로 구성한 그래프를 DMoNPool 레이어 기반의 그래프 신경망 모델로 군집화 했을 때 가장 성능이 좋았으며, 이는 기존의 K-means, Leiden, stLearn, spaGCN보다 평균적으로 더 높은 성능이었다. 이를 통해 그래프 풀링 기반의 군집화가 공간 전사체 스폿의 군집화에 충분히 활용될 수 있음을 확인했다.
Spatially Resolved Transcriptomics(SRT) is a state-of-the-art technology capable of measuring gene expression and spatial location in tissue slides at the same time. Gene expression is measured by spot units in NGS-based SRT data, and the step of clustering similar spots is required for various downstream analyses. However, the clustering methodology that uses all of the information that can be obtained from SRT data, such as gene expression, tissue H&E image, and spots physical position, has not yet been widespread. Therefore, I studied methods of clustering spots of SRT data that can use all three features, which are information that can be obtained from SRT data, by clustering nodes of graph modeled SRT data with graph pooling neural networks. The logCPM normalized gene expression level of each spot was chosen for gene expression features, and histological features were extracted from H&E tissue image patches containing spots by transfer learning of the pretrained ResNet50 image classification model. These two feature matrices were reduced to an appropriate dimension by performing non-negative matrix factorization in which the optimal rank was selected based on the Morans I global spatial autocorrelation coefficient. I proposed two types of methods, a method that uses histological features as node features along with gene expression or that uses histological features for edge connection based on distance combined with physical position, for constructing the graph. For the pooling layer of the model, MinCutPool or DMoNPool was used. In experiments using the dataset which provides the annotation from a histologist with SRT data, I compared which combination of graph construction methods and pooling layer would perform best based on ARI calculated with the target clusters. According to the experimental results, the best performance was achieved when the graph edges are connected by Delaunay triangulation and the graph is clustered by the DMoNPool based GNN model without using the histological features. And this result was better on average than the previously published tools, stLearn and spaGCN. Through this, it was shown that clustering based on graph pooling can be sufficiently utilized for clustering spots of SRT data.
Language
kor
URI
https://hdl.handle.net/10371/193421

https://dcollection.snu.ac.kr/common/orgView/000000174250
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share