Publications

Detailed Information

효율적인 맵리듀스 기반 문자열 유사도 조인 : Efficient String Similarity Joins using MapReduce

DC Field Value Language
dc.contributor.advisor심규석-
dc.contributor.author이창형-
dc.date.accessioned2017-07-14T03:02:16Z-
dc.date.available2017-07-14T03:02:16Z-
dc.date.issued2015-08-
dc.identifier.other000000067258-
dc.identifier.urihttps://hdl.handle.net/10371/123197-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 전기·정보공학부, 2015. 8. 심규석.-
dc.description.abstract문자열 유사도 조인은 데이터 베이스 분야에서 매우 중요하고 자주 사용되는 질의이다. 최근 토큰 기반 유사도와 문자 기반 유사도의 장점을 혼합한 Fuzzy 토큰 자카드 유사도가 제안되었다. 그러나 Fuzzy 토큰 자카드 유사도를 이용한 조인은 수행 시간이 너무 오래 걸려 이를 대용량 데이터에서도 사용하기는 어려웠다. 따라서 이를 극복하기 위해 맵리듀스 프레임워크를 이용하는 새로운 분산병렬처리 알고리즘과 이를 위한 새로운 시그니쳐를 제안하였다. 그리고 기존의 단일 머신 알고리즘과 실험을 통해 그 성능을 비교하였으며 20대의 컴퓨터를 이용하였을 때 최대 7배까지 성능이 향상되는 것을 확인할 수 있었다. 또한 컴퓨터의 수를 늘렸을 때 분산처리 방식의 유사도 조인 알고리즘 수행시간이 효과적으로 줄어드는 것을 확인하였다.-
dc.description.tableofcontents목 차

초록 i

목차 ii

제 1 장 서 론 1
제 1 절 연구의 배경 및 내용 1

제 2 장 관련 연구 4
제 1 절 분산 병렬 처리 4
제 2 절 문자열 유사도 6
제 3 절 문자열 유사도 조인 8

제 3 장 분산 처리 유사도 조인 10
제 1 절 토큰 빈도 카운팅 11
제 2 절 시그니쳐 생성 12
제 3 절 문자 기반 유사도 조인 16
제 4 절 작업 분배 20
제 5 절 검증 23

제 4 장 실험 및 결과 25
제 1 절 단일 머신 알고리즘과의 비교 25
제 2 절 컴퓨터 수에 따른 수행시간 및 효율 28
제 5 장 결론 32


참고문헌 33

Abstract 36
-
dc.formatapplication/pdf-
dc.format.extent1542073 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject문자열-
dc.subject유사도 조인-
dc.subject맵리듀스-
dc.subject알고리즘-
dc.subject하둡-
dc.subject.ddc621-
dc.title효율적인 맵리듀스 기반 문자열 유사도 조인-
dc.title.alternativeEfficient String Similarity Joins using MapReduce-
dc.typeThesis-
dc.contributor.AlternativeAuthorChanghyung Lee-
dc.description.degreeMaster-
dc.citation.pages36-
dc.contributor.affiliation공과대학 전기·컴퓨터공학부-
dc.date.awarded2015-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share