Publications

Detailed Information

Elastic Distributed Training of Deep Neural Networks : 딥 뉴럴 네트워크의 탄력적 분산학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이경근

Advisor
전병곤
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
Deep LearningDistributed TrainingElasticity딥러닝분산학습탄력성
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2021.8. 이경근.
Abstract
As the training of Deep Neural Network (DNN) models relies more and more heavily on the shared GPU clusters or cloud computing services, elastic training of DNN has much potential gain for both the users and the managers of the shared clusters, such as idle resource utilization, job completion time (JCT),
and responsiveness. However, making a distributed DNN training job elastic is not a trivial problem because we should handle the DNN training jobs states appropriately upon scaling events. Moreover, it is even more challenging to achieve both efficient scaling mechanism and correct job state management, which are the two conflicting goals. In this paper, we discuss the problem of state management in an elastic distributed DNN training jobs, and propose a design for fast and safe elastic DNN training system that can support various types
of training jobs. We implemented an elastic training framework, named Elastic Parallax, and validated our system on the data-parallel training workloads.
딥 뉴럴 네트워크(DNN) 모델들이 점점 공유 GPU 클러스터 또는 클라우드 컴퓨팅 서비스에 의존하게 됨에 따라, 유휴자원 활용, JCT, 반응성 등, 클러스터 사용자와 관리자 모두에게 있어 탄력적 학습을 지원하는 것의 잠재적 이점이 많아지고 있다. 그러나 분산 DNN 학습 작업을 탄력적으로 동작하게 만드는 것은 어려운 일인데, 왜냐하면 DNN 학습 작업을 탄력적이게 만들려면 스케일링 시마다 작업의 상태를 적절하게 관리해 주어야 하기 때문이다. 게다가, 효율적인 스케일링 메카니즘과 적절한 작업 상태 관리는 동시에 이루기 어려운 목표들이다. 따라서 본 논문에서는, 탄력적 분산 DNN 학습 작업의 상태 관리 문제를 논의하고, 이를 바탕으로 다양한 종류의 학습 작업을 지원할 수 있는 빠르고 안전한 탄력적 DNN 학습 시스템 디자인을 제안한다. 또한, 탄력적 학습 프레임워크인 Elastic Parallax를 직접 구현하고, 실제 데이터 병렬 학습 작업들에 대하여 시스템을 검증한다.
Language
eng
URI
https://hdl.handle.net/10371/177682

https://dcollection.snu.ac.kr/common/orgView/000000167904
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share