Publications
Detailed Information
맵리듀스 클러스터에서 처리량 향상을 위한 지역성 인지 기반 분산 처리 아키텍처 : Locality-Aware Distributed Processing Architecture for Improving Throughput in MapReduce Clusters
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 홍성수
- Major
- 공과대학 전기·컴퓨터공학부
- Issue Date
- 2015-08
- Publisher
- 서울대학교 대학원
- Description
- 학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 8. 홍성수.
- Abstract
- 대규모의 데이터를 처리하기 위한 클러스터의 플랫폼으로써 맵리듀스 프레임워크와 분산 파일 시스템 기반의 플랫폼이 많이 쓰이고 있다. 특별한 스토리지, 네트워크 시스템 없이 상용 하드웨어로 구축되는 맵리듀스 클러스터에서 네트워크 자원은 가장 스케일업이 어렵고, 희소한 자원이다. 그 때문에 멀티 테넌트 환경에서는 잡과 잡 사이의 네트워크 자원 경쟁을 줄여 클러스터 전체의 잡 처리량을 높이는 것이 중요하다. 네트워크 자원 경쟁이 발생하는 주된 요인은 입력 데이터의 지역성으로 인한 크로스랙 네트워크 트래픽 때문이며, 입력 데이터의 지역성을 높이고자 다양한 기법이 제안되어왔다. 이들은 지역성을 높이기 위한 데이터 분산 정책의 부재로 인해 단편적인 지역성 향상에 그친다는 한계가 있다. 따라서 본 학위 논문에서는 데이터 지역성 인지 기반 분산 처리 아키텍처를 제시한다. 파일 단위로 데이터의 지역성을 인지할 수 있는 분산 파일 시스템과 지역성 인지 기반의 잡 스케줄링 정책을 통해 잡 전체의 데이터 지역성을 높임으로써 완화된 네트워크 자원 경쟁을 통해 잡 처리량을 높인다. 실험 결과 제안된 시스템은 기존 시스템에 비해 맵리듀스 클러스터의 잡 처리량을 17% 이상 향상시킬 수 있었다.
대규모의 데이터를 처리하기 위한 클러스터의 플랫폼으로써 맵리듀스 프레임워크와 분산 파일 시스템 기반의 플랫폼이 많이 쓰이고 있다. 특별한 스토리지, 네트워크 시스템 없이 상용 하드웨어로 구축되는 맵리듀스 클러스터에서 네트워크 자원은 가장 스케일업이 어렵고, 희소한 자원이다. 그 때문에 멀티 테넌트 환경에서는 잡과 잡 사이의 네트워크 자원 경쟁을 줄여 클러스터 전체의 잡 처리량을 높이는 것이 중요하다. 네트워크 자원 경쟁이 발생하는 주된 요인은 입력 데이터의 지역성으로 인한 크로스랙 네트워크 트래픽 때문이며, 입력 데이터의 지역성을 높이고자 다양한 기법이 제안되어왔다. 이들은 지역성을 높이기 위한 데이터 분산 정책의 부재로 인해 단편적인 지역성 향상에 그친다는 한계가 있다. 따라서 본 학위 논문에서는 데이터 지역성 인지 기반 분산 처리 아키텍처를 제시한다. 파일 단위로 데이터의 지역성을 인지할 수 있는 분산 파일 시스템과 지역성 인지 기반의 잡 스케줄링 정책을 통해 잡 전체의 데이터 지역성을 높임으로써 완화된 네트워크 자원 경쟁을 통해 잡 처리량을 높인다. 실험 결과 제안된 시스템은 기존 시스템에 비해 맵리듀스 클러스터의 잡 처리량을 17% 이상 향상시킬 수 있었다.
- Language
- Korean
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.