Publications
Detailed Information
Cost-effective Extreme-scale DNN Inference on a Flash-based Memory System : 플래쉬 기반 효율적 초대규모 인공신경망 모델 추론 시스템
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 이재욱
- Issue Date
- 2021
- Publisher
- 서울대학교 대학원
- Keywords
- Neural Network ; Flash Memory ; Read Disturbance ; 인공신경망 ; 플래쉬 메모리 ; 읽기 방해
- Description
- 학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2021.8. 이재욱.
- Abstract
- The size of deep neural network (DNN) models has been exploding rapidly, demanding a colossal amount of memory capacity. For example, Google has recently scaled its Switch Transformer to have a parameter size of up to 6.4 TB. However, todays HBM DRAM-based memory system for GPUs and DNN accelerators is suboptimal for these extreme-scale DNNs as it fails to provide enough capacity while its massive bandwidth is poorly utilized. Thus, we propose Leviathan, a DNN inference accelerator, which integrates a cost-effective flash-based memory system, instead. We carefully architect the flash-based memory system to provide enough memory bandwidth while preventing performance drop caused by read disturbance errors. Our evaluation of Leviathan demonstrates a 2.39× throughput gain compared to the iso-FLOPS DNN accelerator with conventional SSDs and up to 19.47× higher cost-efficiency than the HBM-based DNN accelerator.
인공신경망 모델들의 크기가 급속하게 증가함에 따라 이에 상응하는 거대한 용량 이 요구돼어진다. 예시로, 구글에서 최근에 발표한 Switch Transformer는 6.4 TB 의 크기를 가지고 있다. 하지만, 근래의 GPU 혹은 DNN 가속기에 탑재되어 있는 HBM DRAM 기반 메모리 시스템은 이러한 초대규모 DNN 모델들을 저장하기 에는 용량이 작을 뿐더러 높은 대역폭이 충분히 활용되지 않아 부적합하다. 이 사실에 기반하여, 본 논문에서는 효율적인 플래쉬 기반 메모리 시스템을 탑재한 DNN 추론 가속기인 Leviathan 을 제안한다. DNN 추론의 특성을 활용하여 기존 의 플래쉬 기반 시스템의 대역폭을 충분히 증가시키며 읽기 방해에 의해 발생하는 성능 저하를 예방한다. Leviathan 의 성능 분석을 통해 동일 연산 능력에 기존 SSD를 장착한 DNN 가속기에 비해 2.39× 처리율을 달성하고 HBM 기반 DNN 가속기에 비해 19.47× 가격 효율성을 가지는 점을 확인한다.
- Language
- eng
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.