Publications

Detailed Information

거리학습을 이용한 Alignment-free 서열분석 성능개선

DC Field Value Language
dc.contributor.advisor윤성로-
dc.contributor.author박민제-
dc.date.accessioned2017-07-14T02:42:49Z-
dc.date.available2017-07-14T02:42:49Z-
dc.date.issued2016-08-
dc.identifier.other000000136211-
dc.identifier.urihttps://hdl.handle.net/10371/122816-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 전기·정보공학부, 2016. 8. 윤성로.-
dc.description.abstract서열 분석기술은 유전체 연구에 있어 필수적인 작업이다. 기존에 사용되었던 Alignment 방식 서열분석은 높은 정확도를 가지나 동적 프로그래밍이 가지는 높은 시간복잡도와 공간복잡도로 인해 많은 양의 서열을 분석하기 어렵다. 이런 단점을 해결하기 위해 등장한 Alignment-free 방식은 Alignment 방법에 비해 빠르고 적은 공간을 사용하나 상대적으로 낮은 정확도를 보인다. 대표적인 Alignment-free 방법인 k-mer profile은 서열의 단어구성을 이용해 서열을 벡터로 변환하고, 이 벡터간의 거리를 이용해 서열간의 유사도를 정의한다. 본 논문은 거리학습을 이용해 벡터로 변환된 정보에서 서열간의 공통점과 차이점을 효과적으로 표현하는 거리를 학습해 Alignment-free 방법의 정확도를 향상시켰다. 본 논문은 PFAM, RFAM 데이터를 이용한 실험을 통해 거리학습이
Alignment-free 방식 서열분석의 정확도를 PFAM에서는 평균
20%p, RFAM에서는 16%p 향상시킬 수 있음을 확인하였다.
-
dc.description.tableofcontents제 1 장 서론 1

제 2 장 배경이론 3
2.1. Alignment-free 서열분석 3
2.1.1. k-mer 기반 거리 4
2.1.2. Sequence as Image 6
2.2. 거리학습 11
2.2.1. Supervised Mahalanobis Metric Learning 12
2.2.2. Unsupervised Metric Learning 16
2.3. 분류기 17
2.3.1. k-Nearest Neighbor 17

제 3 장 방법론 20
3.1. k-mer profiling 20
3.2. 거리학습 21

제 4 장 실험 및 결과 23
4.1. 데이터 셋 & k-mer 빈도 23
4.2. 실험환경 23
4.3. 결과 24
4.3.1. PFAM data 24
4.3.2. RFAM data 28

제 5 장 결론 34

참고 문헌 35

Abstract 39
-
dc.formatapplication/pdf-
dc.format.extent2291747 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subjectAlignment-free-
dc.subjectk-mer 빈도-
dc.subject거리학습-
dc.subject.ddc621-
dc.title거리학습을 이용한 Alignment-free 서열분석 성능개선-
dc.typeThesis-
dc.description.degreeMaster-
dc.citation.pages40-
dc.contributor.affiliation공과대학 전기·정보공학부-
dc.date.awarded2016-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share