HDFS기반 데이터 처리 시스템 성능평가

이희란

서울대학교 중앙도서관

S-Space 소개

My S-Space

로그인이 필요합니다.

S-Space

Publications

Detailed Information

HDFS기반 데이터 처리 시스템 성능평가 : Data processing system benchmarks on HDFS

Cited 0 time in Web of Science Cited 0 time in Scopus

Export

Authors: 이희란

Advisor: 문봉기

Major: 공과대학 컴퓨터공학부

Issue Date: 2016-02

Publisher: 서울대학교 대학원

Keywords: HDFS ; 하둡 ; SQL-on-Hadoop ; Hive ; Spark

Description: 학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2016. 2. 문봉기.

Abstract: 최근 몇 년 동안 Big-data 처리에 있어 하둡이 주요한 역할을 하게 되면서 HDFS(Hadoop distributed File System) 상에서 SQL 인터페이스(Interface)를 제공하는 SQL-on-Hadoop 기술 또한 꾸준히 인기를 끌고 있다.
본 논문에서는 대중적으로 가장 많이 쓰이는 SQL-on-Hadoop 엔진인 Hive와 Spark의 성능 평가를 수행하고 각각 시스템의 특징을 분석하였다. 이러한 벤치마크 테스트를 위해 IBM의 Hibench의 벤치마크 워크로드들을 사용하였다. 시스템 사용량을 정량적으로 측정하기 위해 각각의 벤치마크 수행시 시스템 프로파일링을 하여 검토하였다.
다양한 파일 형식도 테스트 되었다. 현재 학계와 산업계에서 성능에 대한 많은 논쟁이 이루어지고 있는 종횡 배열 스토리지(Columar storage) 형식의 파일들(파케이(Parquet), 오알씨(ORC) 파일)과 압축 방식(스내피(snappy), 지집(gzip)등)에 따른 성능 차이도 비교하여 보았다. 또한 실제 SNS(Social Network Service)에서 사용되는 데이터(Tweet)를 사용하여 Spark의 신규 기능인 Spark DataFrame을 이용, JSON(JavaScript Object Notation)파일의 처리의 성능 차이도 살펴보았다.
이와 같이 본 연구는 기존의 RDBMS(Releational Database Management System)의 테스트에 주로 사용되었던 TPC(Transaction processing Performance Council) 벤치 마크에서는 다루지 못한, 대용량 시스템의 성능 평가 지표로 포함되어야 하는 기준들을 제안하고, 이를 실험 해 보고 효율적인 시스템 활용 방안에 대한 방법을 제안한다.

Language: Korean

URI: https://hdl.handle.net/10371/122653

Files in This Item:

000000132522.pdf 4.32 MB

Appears in Collections:

College of Engineering/Engineering Practice School (공과대학/대학원)
- Dept. of Computer Science and Engineering (컴퓨터공학부)
  - Theses (Master's Degree_컴퓨터공학부)

Altmetrics

Item View & Download Count

Show Full Item Record

Find it @ SNU

트윗하기

SNS Share