Publications

Detailed Information

맵리듀스 기반 스트리밍 세타 조인 알고리즘

DC Field Value Language
dc.contributor.advisor심규석-
dc.contributor.author손정민-
dc.date.accessioned2017-07-14T02:55:55Z-
dc.date.available2017-07-14T02:55:55Z-
dc.date.issued2014-02-
dc.identifier.other000000018453-
dc.identifier.urihttps://hdl.handle.net/10371/123068-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2014. 2. 심규석.-
dc.description.abstract처리해야 할 데이터의 크기가 급격히 증가하면서, 맵리듀스를 이용하여 조인질의를 수행하는 다양한 연구가 이루어지고 있다. 하지만 입력 데이터의 크기가 증가하면 중간 생성 데이터의 크기가 커지고 디스크 입출력과 네트워크 트래픽이 증가하여 수행시간이 오래 걸리는 문제가 있다. 본 논문에서는 맵리듀스 프레임워크를 이용한 세타 조인에 대해 중간 생성 데이터의 크기를 최대 75%를 줄여 수행시간을 감소시킬 수 있는 향상된 세타 조인 방식을 제안한다. 또한 디스크 입출력에 대한 비용모델을 제안하고 이를 세타 조인 알고리즘에 적용하여 수행시간을 최소화하는 데이터 분할 방법을 선택하도록 한다.-
dc.description.abstractAs the size of data to be processed is rapidly increases, many researches have been conducted on processing join queries using MapReduce. However, when the size of input data becomes large, processing time of a join query tends to grow significantly since the disk I/O and network traffic become large due to the increase of the size of intermediate data. In this paper, an improved theta-join algorithm is proposed for process theta-join queries using a MapReduce framework. This algorithm can reduce the execution time of query processing due to the size of intermediate result is reduced by up to 75%. A cost model for disk I/O is also proposed and it is applied to the improved theta-join algorithm to select the best partitioning method to minimize the execution time.-
dc.description.tableofcontents1. 서론 1
2. 관련 연구 3
2.1. 맵리듀스 프레임워크 3
2.2. 맵리듀스 동등조인 5
2.3. 맵리듀스 세타 조인 8
3. 스트리밍 세타 조인 12
3.1. 이론적 분석 12
3.2. 의사코드 15
3.3. 장점 및 단점 23
4. 비용모델이 적용된 스트리밍 세타 조인 25
4.1. 비용모델 26
4.2. 비용모델의 장점 및 단점 30
5. 실험 및 분석 31
5.1. 히스토그램의 버킷 개수 변화 31
5.2. 데이터 분할 방법의 변화 33
5.3. 컴퓨터 개수 변화 37
6. 결론 39
7. 참고 문헌 40
-
dc.formatapplication/pdf-
dc.format.extent2301085 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject스트리밍-
dc.subject세타 조인-
dc.subject맵리듀스-
dc.subject데이터베이스-
dc.subject조인-
dc.subject하둡-
dc.subject.ddc621-
dc.title맵리듀스 기반 스트리밍 세타 조인 알고리즘-
dc.typeThesis-
dc.description.degreeMaster-
dc.citation.pagesii, 43-
dc.contributor.affiliation공과대학 전기·컴퓨터공학부-
dc.date.awarded2014-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share