Publications

Detailed Information

Cost-Efficient Machine Learning Training on Preemptible Cloud Clusters : 선점가능형 클라우드 클러스터에서의 비용 효율적인 머신러닝 학습

DC Field Value Language
dc.contributor.advisor전병곤-
dc.contributor.author구윤모-
dc.date.accessioned2022-12-29T07:44:08Z-
dc.date.available2022-12-29T07:44:08Z-
dc.date.issued2022-
dc.identifier.other000000173105-
dc.identifier.urihttps://hdl.handle.net/10371/187770-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000173105ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2022. 8. 전병곤.-
dc.description.abstractDue to the high cost of building a physical GPU cluster infrastructure for AI model training, the demand for training on pay-as-you-go public cloud clusters has increased rapidly. In particular, training AI models using preemptible(i.e., spot) VMs provided at steep price discounts has attracted the attention of many researchers. However, since cloud providers can unilaterally revoke preemptible VMs at any time, it may result in the loss of underway training states. Due to the trade-off between cost and reliability, researchers are disinclined to actively adopt preemptible VMs for their experiments. In this paper, we discuss the major challenges of AI model training on preemptible VMs and propose Spotify, an AI model training job orchestrator, which automatically deals with the challenges and enables reliable training on preemptible cloud clusters. Researchers can run training jobs on low-price preemptible clusters under the illusion of using reliable on-demand clusters. Our evaluations show that Spotify reduces the 62% of end-to-end training cost with only sacrificing 2.86% additional latency overhead compared to the training on on-demand clusters.-
dc.description.abstract인공지능 모델 학습을 위해 물리적으로 GPU 클러스터를 구축 및 관리하는 데에 는 많은 비용이 투자되어야 한다. 이에 따라 인공지능 모델 개발자들 사이에서는 사용한 만큼의 비용만을 지불하여 사용이 가능한 클라우드 클러스터를 사용하여 모델 학습을 하려는 수요가 점차 증가하고 있다. 특히 큰 폭의 할인된 가격으로 제공되는 선점가능형 가상머신을 사용하여 모델 학습을 하는 방식이 큰 주목을 받고 있다. 하지만 선점가능형 가상머신은 클라우드 제공사에 의해 언제든지 일방적으로 선점을 당할 수 있기 때문에 진행 중이던 학습 상태의 손실이 야기될 수 있다. 비용과 안전성 면에서 교환이 발생하기 때문에 개발자들은 선점가능형 가상머신을 모델 학습 및 실험에 적극적으로 사용하는 데 어려움을 겪고 있다. 본 연구에서는 선점가능형 가상머신에서 인공지능 모델 학습을 진행하는 데 있어 존재하는 주요한 어려움들에 대해 논의하고, 자동화된 방식을 통해 그러한 어려 움을 해결함으로써 선점가능형 클라우드 클러스터에서 안정적인 학습을 가능하게 하는 인공지능 모델 학습 작업 관리 시스템인 Spotify를 제안한다. 우리의 실험 결과는 Spotify가 선점가능형 클라우드 클러스터에서 학습을 수행할 때 온디맨드 클라우드 클러스터에서 학습을 진행하는 것 대비 2.86%의 지연시간 오버헤드만을 희생하여 최대 62%에 달하는 비용을 절약할 수 있음을 보인다.-
dc.description.tableofcontentsAbstract 1
1 Introduction 5
2 Background 8
2.1 Preemptible Virtual Machines 8
2.2 Model Training and Checkpointing 9
3 Challenges 12
3.1 Unpredictability of Preemptions 12
3.2 Resource Management 14
4 Modeling Checkpointing Policy 15
4.1 Approximating Optimal Checkpointing Interval 15
4.2 Emergency Save 17
4.3 Insurance Save 18
4.4 Adaptive Checkpointing 19
5 System Design 22
5.1 System Architecture and Workflow 22
5.2 API Design 25
6 Evaluation 27
6.1 Environment 27
6.1.1 Cloud VM 27
6.1.2 Job Specification 28
6.2 Evaluation Tools 28
6.2.1 Preemption Injector 28
6.2.2 Training Simulator 29
6.3 Training Performance and Cost 30
6.3.1 Efficiency of EmergencySave 30
6.3.2 Efficiency of Insurance Save 32
6.4 Effect of Preemption Frequency 35
7 Conclusion 36
초록 41
-
dc.format.extent41-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectMachineLearning-
dc.subjectCloud-
dc.subjectPreemptionHandling-
dc.subjectSpotInstance-
dc.subject.ddc621.39-
dc.titleCost-Efficient Machine Learning Training on Preemptible Cloud Clusters-
dc.title.alternative선점가능형 클라우드 클러스터에서의 비용 효율적인 머신러닝 학습-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYunmo Koo-
dc.contributor.department공과대학 컴퓨터공학부-
dc.description.degree석사-
dc.date.awarded2022-08-
dc.identifier.uciI804:11032-000000173105-
dc.identifier.holdings000000000048▲000000000055▲000000173105▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share