Browse

맵리듀스 클러스터에서 처리량 향상을 위한 지역성 인지 기반 분산 처리 아키텍처
Locality-Aware Distributed Processing Architecture for Improving Throughput in MapReduce Clusters

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
김경래
Advisor
홍성수
Major
공과대학 전기·컴퓨터공학부
Issue Date
2015-08
Publisher
서울대학교 대학원
Keywords
맵리듀스분산 처리지역성분산 파일 시스템
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 8. 홍성수.
Abstract
대규모의 데이터를 처리하기 위한 클러스터의 플랫폼으로써 맵리듀스 프레임워크와 분산 파일 시스템 기반의 플랫폼이 많이 쓰이고 있다. 특별한 스토리지, 네트워크 시스템 없이 상용 하드웨어로 구축되는 맵리듀스 클러스터에서 네트워크 자원은 가장 스케일업이 어렵고, 희소한 자원이다. 그 때문에 멀티 테넌트 환경에서는 잡과 잡 사이의 네트워크 자원 경쟁을 줄여 클러스터 전체의 잡 처리량을 높이는 것이 중요하다. 네트워크 자원 경쟁이 발생하는 주된 요인은 입력 데이터의 지역성으로 인한 크로스랙 네트워크 트래픽 때문이며, 입력 데이터의 지역성을 높이고자 다양한 기법이 제안되어왔다. 이들은 지역성을 높이기 위한 데이터 분산 정책의 부재로 인해 단편적인 지역성 향상에 그친다는 한계가 있다. 따라서 본 학위 논문에서는 데이터 지역성 인지 기반 분산 처리 아키텍처를 제시한다. 파일 단위로 데이터의 지역성을 인지할 수 있는 분산 파일 시스템과 지역성 인지 기반의 잡 스케줄링 정책을 통해 잡 전체의 데이터 지역성을 높임으로써 완화된 네트워크 자원 경쟁을 통해 잡 처리량을 높인다. 실험 결과 제안된 시스템은 기존 시스템에 비해 맵리듀스 클러스터의 잡 처리량을 17% 이상 향상시킬 수 있었다.
대규모의 데이터를 처리하기 위한 클러스터의 플랫폼으로써 맵리듀스 프레임워크와 분산 파일 시스템 기반의 플랫폼이 많이 쓰이고 있다. 특별한 스토리지, 네트워크 시스템 없이 상용 하드웨어로 구축되는 맵리듀스 클러스터에서 네트워크 자원은 가장 스케일업이 어렵고, 희소한 자원이다. 그 때문에 멀티 테넌트 환경에서는 잡과 잡 사이의 네트워크 자원 경쟁을 줄여 클러스터 전체의 잡 처리량을 높이는 것이 중요하다. 네트워크 자원 경쟁이 발생하는 주된 요인은 입력 데이터의 지역성으로 인한 크로스랙 네트워크 트래픽 때문이며, 입력 데이터의 지역성을 높이고자 다양한 기법이 제안되어왔다. 이들은 지역성을 높이기 위한 데이터 분산 정책의 부재로 인해 단편적인 지역성 향상에 그친다는 한계가 있다. 따라서 본 학위 논문에서는 데이터 지역성 인지 기반 분산 처리 아키텍처를 제시한다. 파일 단위로 데이터의 지역성을 인지할 수 있는 분산 파일 시스템과 지역성 인지 기반의 잡 스케줄링 정책을 통해 잡 전체의 데이터 지역성을 높임으로써 완화된 네트워크 자원 경쟁을 통해 잡 처리량을 높인다. 실험 결과 제안된 시스템은 기존 시스템에 비해 맵리듀스 클러스터의 잡 처리량을 17% 이상 향상시킬 수 있었다.
Language
Korean
URI
http://hdl.handle.net/10371/123184
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Electrical and Computer Engineering (전기·정보공학부)Theses (Master's Degree_전기·정보공학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse