Publications

Detailed Information

다른 거리를 이용한 t-SNE : t-SNE using different distance

DC Field Value Language
dc.contributor.advisor임요한-
dc.contributor.author지승영-
dc.date.accessioned2022-06-22T08:38:45Z-
dc.date.available2022-06-22T08:38:45Z-
dc.date.issued2022-
dc.identifier.other000000169967-
dc.identifier.urihttps://hdl.handle.net/10371/183110-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000169967ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 자연과학대학 통계학과, 2022.2. 임요한.-
dc.description.abstractIn this study, t-SNE(t-Distributed Stochastic Neighbor Embedding), one of the dimension reduction methods, is applied to high-dimensional data. When applying t-SNE, it is considered to use Interpoint type distance rather than Euclidean distance or Manhattan distance. First, t-SNE, concentration of distance, and Interpoint type distance are examined. After that, t-SNE is applied to high-dimensional gene data using Euclidean distance, Manhattan distance and Interpoint type distance. And compared with the results of pre-screening of gene data, the results are discussed.-
dc.description.abstract본 연구에서는 차원 축소 방법 중 하나인 t-SNE(t-분포 확률적 임베딩)를 고차원 자료에 적용하여 본다. 이때 고차원 자료의 거리 측정에서 유클리드 거리나 맨하탄 거리가 아닌 Interpoint type distance를 이용하는 방법에 대하여 고민한다. 우선 t-SNE, 거리의 집중(Concentration of Distance), Interpoint type distance에 대하여 살펴본다. 그 후 유클리드 거리와 맨하탄 거리, Interpoint type distance를 이용하여, 실제 고차원 유전자 데이터에 t-SNE를 적용하여 본다. 그리고 유전자 데이터에 대한 사전 스크리닝을 진행한 결과와 함께 비교하여, 그 결과를 의논하여 본다.-
dc.description.tableofcontents1 서론 1
2 t-SNE 3
2.1 t-SNE의 차원 축소 과정 3
2.2 crowding problem 5
2.3 t-SNE의 특징 6
2.4 t-SNE의 약점 6
3 거리들 8
3.1 기존 거리 8
3.1.1 유클리드 거리 8
3.1.2 민코프스키 거리(Minkowski Distance) 8
3.1.3 p-Norm 9
3.2 거리의 집중(Concentration of Distances) 9
3.3 Interpoint type distance 11
3.3.1 Mean Absolute Difference of Distances (MADD) 12
3.3.2 Absolute Difference of Distances from the Mean (ADDM) 13
4 고차원 데이터에 활용 14
4.1 데이터 설명 14
4.2 t-SNE 결과 15
4.3 평가 척도 20
4.3.1 실루엣 점수(silhouette score) 20
4.3.2 다변량 분산분석(MANOVA) 21
4.4 평가 결과 23
4.4.1 실루엣 점수 23
4.4.2 다변량 분산분석 결과 30
4.4.3 실루엣 점수와 다변량 분산분석 결과 요약 34
5 결론 35
참고문헌 36
Abstract 38
-
dc.format.extentv, 38-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject고차원 데이터-
dc.subject차원 축소-
dc.subjectt-SNE(t-분포 확률적 임베딩)-
dc.subject거리의 집중(Concentration of Distance)-
dc.subjectInterpoint type distance-
dc.subjectMADD-
dc.subjectADDM-
dc.subject.ddc519.5-
dc.title다른 거리를 이용한 t-SNE-
dc.title.alternativet-SNE using different distance-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorSeungyeong Ji-
dc.contributor.department자연과학대학 통계학과-
dc.description.degree석사-
dc.date.awarded2022-02-
dc.identifier.uciI804:11032-000000169967-
dc.identifier.holdings000000000047▲000000000054▲000000169967▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share