Publications

Detailed Information

HDFS기반 데이터 처리 시스템 성능평가 : Data processing system benchmarks on HDFS

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이희란

Advisor
문봉기
Major
공과대학 컴퓨터공학부
Issue Date
2016-02
Publisher
서울대학교 대학원
Keywords
HDFS하둡SQL-on-HadoopHiveSpark
Description
학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2016. 2. 문봉기.
Abstract
최근 몇 년 동안 Big-data 처리에 있어 하둡이 주요한 역할을 하게 되면서 HDFS(Hadoop distributed File System) 상에서 SQL 인터페이스(Interface)를 제공하는 SQL-on-Hadoop 기술 또한 꾸준히 인기를 끌고 있다.
본 논문에서는 대중적으로 가장 많이 쓰이는 SQL-on-Hadoop 엔진인 Hive와 Spark의 성능 평가를 수행하고 각각 시스템의 특징을 분석하였다. 이러한 벤치마크 테스트를 위해 IBM의 Hibench의 벤치마크 워크로드들을 사용하였다. 시스템 사용량을 정량적으로 측정하기 위해 각각의 벤치마크 수행시 시스템 프로파일링을 하여 검토하였다.
다양한 파일 형식도 테스트 되었다. 현재 학계와 산업계에서 성능에 대한 많은 논쟁이 이루어지고 있는 종횡 배열 스토리지(Columar storage) 형식의 파일들(파케이(Parquet), 오알씨(ORC) 파일)과 압축 방식(스내피(snappy), 지집(gzip)등)에 따른 성능 차이도 비교하여 보았다. 또한 실제 SNS(Social Network Service)에서 사용되는 데이터(Tweet)를 사용하여 Spark의 신규 기능인 Spark DataFrame을 이용, JSON(JavaScript Object Notation)파일의 처리의 성능 차이도 살펴보았다.
이와 같이 본 연구는 기존의 RDBMS(Releational Database Management System)의 테스트에 주로 사용되었던 TPC(Transaction processing Performance Council) 벤치 마크에서는 다루지 못한, 대용량 시스템의 성능 평가 지표로 포함되어야 하는 기준들을 제안하고, 이를 실험 해 보고 효율적인 시스템 활용 방안에 대한 방법을 제안한다.
Language
Korean
URI
https://hdl.handle.net/10371/122653
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share