Publications

Detailed Information

효율적인 맵리듀스 기반 문자열 유사도 조인 : Efficient String Similarity Joins using MapReduce

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이창형

Advisor
심규석
Major
공과대학 전기·컴퓨터공학부
Issue Date
2015-08
Publisher
서울대학교 대학원
Keywords
문자열유사도 조인맵리듀스알고리즘하둡
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·정보공학부, 2015. 8. 심규석.
Abstract
문자열 유사도 조인은 데이터 베이스 분야에서 매우 중요하고 자주 사용되는 질의이다. 최근 토큰 기반 유사도와 문자 기반 유사도의 장점을 혼합한 Fuzzy 토큰 자카드 유사도가 제안되었다. 그러나 Fuzzy 토큰 자카드 유사도를 이용한 조인은 수행 시간이 너무 오래 걸려 이를 대용량 데이터에서도 사용하기는 어려웠다. 따라서 이를 극복하기 위해 맵리듀스 프레임워크를 이용하는 새로운 분산병렬처리 알고리즘과 이를 위한 새로운 시그니쳐를 제안하였다. 그리고 기존의 단일 머신 알고리즘과 실험을 통해 그 성능을 비교하였으며 20대의 컴퓨터를 이용하였을 때 최대 7배까지 성능이 향상되는 것을 확인할 수 있었다. 또한 컴퓨터의 수를 늘렸을 때 분산처리 방식의 유사도 조인 알고리즘 수행시간이 효과적으로 줄어드는 것을 확인하였다.
Language
Korean
URI
https://hdl.handle.net/10371/123197
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share