Publications

Detailed Information

GPU 클러스터를 위한 자원 관리 시스템 : Resource Management System for GPU Cluster

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

신동진

Advisor
전병곤
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
딥러닝자원 관리자분산 시스템GPU 클러스터
Description
학위논문(석사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2019. 8. 전병곤.
Abstract
최근 딥러닝 기술은 다양한 분야에 걸쳐 사람과 비슷하거나 더 뛰어난 성능을 보여주고 있다. 이러한 딥러닝 작업들은 일반적으로 많은 자원과 시간을 필요로 하므로, 여러 사용자가 자원을 공유하는 GPU 클러스터 환경에서 대규모의 딥러닝 작업들을 효율적으로 자원을 분배하는 것이 필수적이다. 하지만 기존의 자원 관리자들은 CPU나 메모리를 주 관리대상으로 하여, GPU나 네트워크를 주요 자원으로 사용하는 딥러닝 작업에는 적합하지 않고, 딥러닝 작업만의 특성을 활용하지 않으므로 최적화된 관리가 어렵다. 본 논문에서는 딥러닝 작업의 특성을 이용하여 이에 최적화된 GPU 클러스터 관리 시스템에 대해 소개한다. 우선 딥러닝 작업의 특성을 분석하여 클러스터 관리 시스템이 어떠한 기능을 필요로 하는지에 대해 논의한 후, 이를 만족시키는 시스템의 설계 및 구현을 설명한다. 또한, 분산 학습과 다중 작업 스케줄링 실험을 통해 본 연구에서 구현한 시스템이 딥러닝 작업들을 효과적으로 수행하고 클러스터 자원을 효율적으로 관리함을 보인다.
Deep learning technology has achieved tremendous performance in various application areas. Since such deep learning jobs typically require a great amount of resource and time, scheduling numerous deep learning jobs and allocating resources in GPU cluster efficiently is crucial. However, existing resource management systems tend to focus on CPU or main memory, which are not suitable for deep learning jobs which uses GPU or network bandwidth as a main resource. Also, they do not exploit the characteristics of deep learning jobs for management, making it difficult to optimize for such jobs. In this paper, we exploit the characteristics of deep learning jobs to propose a resource management system for GPU cluster which is optimized for deep learning jobs. First, we discuss the characteristics of deep learning jobs to show the system requirements, and then show our design and implementation of a system that meets such requirements. We also evaluate the distributed training and multi-job scheduling to show that our system effectively executes deep leaning jobs and efficiently manages cluster resources.
Language
kor
URI
https://hdl.handle.net/10371/161073

http://dcollection.snu.ac.kr/common/orgView/000000156446
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share