Publications

Detailed Information

프로세싱인플래시를 위한 성능분석 및 설계공간 탐색 : Performance Analysis and Design Space Exploration of Processing-in-Flash Storage Systems

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정일보

Advisor
김지홍
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
낸드 플래시 메모리 기반 저장장치가속기심층 기반 학습성능NAND flash memoryAccelerationDeep LearningPerformance
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2021. 2. 김지홍.
Abstract
최근 심층 학습(deep learning)이 빠르게 확장되어 데이터 검색과 같은 데이터 집약적인 응용에서도 활용되고 있다. GPU, TPU와 같은 가속기의 등장으로 심층 학습의 연산 요구량을 충족시키고 있는 반면에 상대적으로 낮은 대역폭을 갖는 저장장치와의 통신 문제로 여전히 전체 성능에 병목이 발생하고 있다. 이에 대해 SSD 수준의 가속 기능을 제공하여 저장장치와의 통신과 가속 기능의 성능적 간극을 최소화할 수 있는 연구들이 진행되었다. 그러나 낮은 대역폭을 갖는 낸드 인터페이스를 통한 플래시 메모리 접근으로 인해 여전히 저장장치 수준에서도 데이터 입출력으로 인한 성능 병목이 발생한다.
본 논문에서는 플래시 메모리와 가속기 사이의 병목을 최소화하기 위해 플래시 메모리 수준에서의 가속 기능을 제공해주는 프로세싱인플래시 (processing-in flash, PiF) 방식을 제안한다. 플래시 메모리 내부 대역폭은 플래시 메모리를 구성하는 내부 자원에 따라 낸드 인터페이스보다 높은 대역폭을 가질 수 있다. 이를 최대한 활용할 수 있는 방법에 대해 탐색하고 설계를 위해 고려해야 할 사항들을 정리하여 이에 맞는 가속기 구성을 제안한다.
제안된 플래시 수준의 가속기 성능을 측정하기 위해 본 논문은 CoX-Sim 성능 분석 시뮬레이션 툴을 구현하였다. 해당 시뮬레이터는 가속기 자원과 SSD 내부에 가용할 수 있는 메모리(DRAM, 플래시 메모리)의 자원 등을 통합적으로 고려하여 전체 가속기의 성능을 시뮬레이션할 수 있도록 지원해준다. 이를 통해 기존 연구의 성능의 주요 병목 지점을 확인하고, 이를 해결하기 위해 제한된 자원 내에서 플래시 수준의 가속기가 최대의 성능을 보일 수 있는 가속기 구성을 탐색하기 위해 다양한 실험을 진행하였다. 실험을 통해 심층 학습 기반 데이터 검색 응용에서 플래시 수준의 가속이 기존 연구에 비해 최대 4배까지 성능을 증가시킬 수 있음을 확인하였다.
In recent years, deep learning (DL) has been rapidly expanded and utilized for data-intensive applications such as data retrieval. While the emergence of accelerators such as graphic processing units (GPUs) and tensor processing units (TPUs) is meeting the computational requirement of DL, communication between the storage and the accelerator with relatively low bandwidth is still causing a bottleneck in overall performance. In this regard, studies have been conducted to minimize the performance gap between communication with storage device and acceleration by providing SSD-level acceleration. However, access to flash memory through NAND interface, which still have low bandwidth, results in performance bottleneck even in the storage level acceleration.
The internal bandwidth of flash memory can have higher bandwidth than NAND interfaces, depending on the internal resources that make up flash memory. To make the most of this, in this paper, we propose the composition of accelerators accordingly by exploring the processing-in-flash method that can directly use the high bandwidth of flash memory level and organizing the considerations for design.
To measure accelerator performance at the proposed flash level, we implemented CoX-Sim, a performance analysis simulation tool. The simulator helps simulate the performance of the entire accelerator by considering the accelerator resources and the resources of memory (DRAM, flash memory) that can be available inside the SSD. Through this, various experiments were conducted to identify key bottlenecks in the performance of existing studies, and to address them, to explore the accelerator configuration in which flash-level accelerators could perform at their maximum performance within limited resources. Experiments have confirmed that flash-level acceleration in deep learning-based data retrieval applications can increase performance by up to four times over conventional studies.
Language
kor
URI
https://hdl.handle.net/10371/175451

https://dcollection.snu.ac.kr/common/orgView/000000164184
Files in This Item:
There are no files associated with this item.
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share