Publications

Detailed Information

이기종 저장장치 환경에서의 하둡 맵리듀스의 처리 속도 향상을 위한 동적 데이터 관리 메커니즘 : SSD Aware Dynamic Replica Management for Improving Hadoop MapReduce Throughput

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정현석

Advisor
홍성수
Major
융합과학기술대학원 융합과학부(지능형융합시스템전공)
Issue Date
2015-08
Publisher
서울대학교 융합과학기술대학원
Keywords
HadoopHadoop Distributed File SystemSolid State DriveReplica
Description
학위논문 (석사)-- 서울대학교 융합과학기술대학원 : 융합과학기술대학원 융합과학부(지능형융합시스템전공), 2015. 8. 홍성수.
Abstract
현재 스마트 모바일 기기의 보급으로 SNS와 멀티미디어 이용자가 증가함에 따라 사용되는 데이터 양이 증가하고 있다. 이에 더하여 차세대 ICT 기술로 각광받는 무인자율주행 자동차와 사물인터넷(IoT)의 등장에 따라 데이터의 증가 속도가 가속화 될 것으로 예상된다. 이러한 대용량 데이터를 처리하기 위해 Google, Microsoft 그리고 Amazon과 같은 세계적 대기업들은 각각 Google cloud platform, Azure, Kinesis과 같이 다양한 솔루션들을 제공하고 있다. Facebook[19]과 Amazon[21]에서도 Hadoop을 대용량 데이터의 처리를 위해 사용하고 있다.
Hadoop은 다수의 컴퓨터 클러스터에서 페타바이트급 대용량 데이터를 처리하기 위한 소프트웨어 프레임워크이다 [16]. 이러한 대용량 데이터 처리를 위해 Hadoop은 분산 처리 엔진인 MapReduce[17]와 분산 처리 파일 시스템인 HDFS[18]로 구성된다. 이러한 Hadoop의 성능 저하 요인은 주로 저장장치의 입출력 속도보다 현저하게 느린 네트워크 속도였으나, 최근 네트워크 기술의 발전으로 저장장치의 입출력 속도가 Hadoop의 성능 저하 요인으로 분석되고 있다 [1]. 이에 따라 저장장치를 관리하는 HDFS(Hadoop Distributed File System)의 성능을 개선하기 위한 많은 연구가 진행되어 왔다. 특히, HDD의 대체 저장장치인 SSD(Solid State Drive)의 최근 가격이 하락함에 따라 이를 활용하는 연구가 활발히 진행 중이다.
본 논문은 Hadoop 시스템에서의 SSD를 활용한 데이터 관리
ii
기법을 제안하고 MapReduce과정과 Hadoop 분산파일 시스템의 특성을 분석한다. 이를 통해 현재의 Native Hadoop의 한계점을 도출하여 이를 해결하기 위해 SSD를 활용한 방안을 제시한다. 해결 방안은 데이터 블록의 참조 속도를 향상시켜 전체 MapReduce 작업의 수행 시간을 단축하는 방법이다. 제안된 데이터 관리기법을 따르면 SSD와 HDD가 적용된 Hadoop 시스템에서 데이터 참조시의 SSD 활용률을 높이기 때문에 참조 속도가 향상되어 전체 MapReduce 작업의 처리율을 높이는 효과가 있다.
이와 같은 HDD와 SSD가 혼재한 Hadoop 시스템을 모델링하고 Map task 수행 시 데이터 참조 상황에서 발생하는 참조 속도 단축을 확인하였다.
본 논문에서 제시된 데이터 관리 기법을 따르면 MapReduce의 작업 처리율이 향상되어 대용량 데이터의 빠른 응답속도를 보장 가능하도록 한다.
Language
Korean
URI
https://hdl.handle.net/10371/133244
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share