Publications

Detailed Information

Hadoop MapReduce Performance Enhancement Using In-Node Combiners : 노드기반 컴바이너를 이용한 하둡 맵리듀스 성능 개선

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이우현

Advisor
김형주
Major
공과대학 전기·컴퓨터공학부
Issue Date
2015-02
Publisher
서울대학교 대학원
Keywords
MapReduceHadoopHDFSCombinerNoSQL
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. 김형주.
Abstract
다양한 종류의 애플리케이션과 기기들이 기하급수적인 양의 데이터를 실시간으로 생성한다. 대용량 데이터 분석에 대한 수요가 증가함에 따라 효과적인 방법으로 많은 양의 데이터를 저장 및 처리하는 기술이 요구되고 있다. 데이터 분석은 주어진 하드웨어를 사용하여 허용된 범위 시간 안에 처리되어야 한다. 이를 위해 하둡은 효율적인 대용량 데이터 분산 저장과 분산 병렬 컴퓨팅을 지원한다. 맵리듀스는 하둡이 지원하는 강력한 분산 프로그래밍 모델로서 다양한 형식의 데이터를 처리한다. 본 논문은 맵리듀스 작업의 병목으로 지목되는 I/O 비용에 대한 개선 방안을 제시한다. 많은 연구가 맵리듀스 작업의 입력 데이터를 메모리에 캐시하여 데이터 매핑 단계의 디스크 I/O를 최소화하는 방법에 대한 효율성을 증명하였다. 본 논문은 셔플 단계의 I/O를 줄이는 방안으로 동일한 노드에서 실행되는 모든 매퍼(Mapper)의 결과 값을 인메모리 캐시에 저장하여 노드별 결과 값 크기를 최소화하는 노드기반 컴바이너(In-Node Combiner)를 제안한다. 실험 결과 기존 연구에 비해 노드기반 컴바이너를 사용하였을 경우 맵리듀스 작업의 성능이 20% 이상 향상하는 것을 확인하였다.
Overwhelming amount of data is being generated by various applications and devices in real-time. While advanced analysis of large dataset is in high demand, data sizes have surpassed capabilities of conventional software and hardware. Data-intensive analytics should be processed in tolerable elapsed time using commodity hardware. Hadoop framework efficiently distributes large datasets over multiple commodity servers and the MapReduce framework performs parallel computations. We discuss the I/O bottlenecks of Hadoop MapReduce framework and propose methods for enhancing I/O performance in common MapReduce jobs. A proven approach is to cache input data to maximize memory-locality of all map tasks. We introduce an approach to optimize I/O in the shuffle phase, the in-node combining design which extend the scope of the traditional combiner to a node level. The in-node combiner reduces the total number of emitted intermediate results and curtail network traffic between mappers and reducers.
Language
English
URI
https://hdl.handle.net/10371/123168
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share