Publications

Detailed Information

공유된 GPU 클러스터의 효율적인 자원 배분에 관한 연구 : A Methodology for Efficient Scheduling on GPU-enabled Clusters

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

서장호

Advisor
전병곤
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
자원 관리자스케줄러탄력적 자원 사용딥 러닝분산 학습자원 활용률응답 시간동적 자원 재배정Resource managerSchedulerResource elasticityDeep learningDistributed trainingResource utilizationJob completion timeDynamic resource replacement
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2020. 8. 전병곤.
Abstract
딥 러닝 학습 작업은 상대적으로 비싼 계산 자원인 GPU를 적극적으로 활용하며, 이 때 여러 학습 작업이 공유하는 GPU 클러스터를 관리하는 자원 관리자를 도입하는 것이 일반적이다. 이 논문은 자원 관리자가 어느 작업에 주어진 자원을 재배정하거나, 그 양을 탄력적으로 줄이거나 늘릴 수 있는 역량을 갖추는 방법에 대해 탐구한다. 또한 이러한 방식을 시험하기 위해 제작한 시험적 구현체가, GPU들을 정적으로 분할하는 스케줄러에 비해 GPU 활용률과 전체 워크로드 처리에 걸린 시간 측면에서 우수한 성능을 보인 사례를 제시한다.
Deep learning training jobs utilize GPUs, which are relatively expensive resources on todays computing clusters. It is common to introduce a resource manager which governs multi-tenant GPU cluster shared among multiple jobs. This paper presents a protocol in which a resource manager can dynamically relocate a job to another set of resources, or elastically shrink or grow its resource usage. This paper also presents a case where the prototype implementation of the protocol outperforms a statically-partitioning scheduler in terms of GPU utilization and overall workload completion time.
Language
kor
URI
https://hdl.handle.net/10371/169367

http://dcollection.snu.ac.kr/common/orgView/000000161589
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share