Publications

Detailed Information

프로세싱인플래시를 위한 성능분석 및 설계공간 탐색 : Performance Analysis and Design Space Exploration of Processing-in-Flash Storage Systems

DC Field Value Language
dc.contributor.advisor김지홍-
dc.contributor.author정일보-
dc.date.accessioned2021-11-30T02:43:03Z-
dc.date.available2021-11-30T02:43:03Z-
dc.date.issued2021-02-
dc.identifier.other000000164184-
dc.identifier.urihttps://hdl.handle.net/10371/175451-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000164184ko_KR
dc.description학위논문 (석사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2021. 2. 김지홍.-
dc.description.abstract최근 심층 학습(deep learning)이 빠르게 확장되어 데이터 검색과 같은 데이터 집약적인 응용에서도 활용되고 있다. GPU, TPU와 같은 가속기의 등장으로 심층 학습의 연산 요구량을 충족시키고 있는 반면에 상대적으로 낮은 대역폭을 갖는 저장장치와의 통신 문제로 여전히 전체 성능에 병목이 발생하고 있다. 이에 대해 SSD 수준의 가속 기능을 제공하여 저장장치와의 통신과 가속 기능의 성능적 간극을 최소화할 수 있는 연구들이 진행되었다. 그러나 낮은 대역폭을 갖는 낸드 인터페이스를 통한 플래시 메모리 접근으로 인해 여전히 저장장치 수준에서도 데이터 입출력으로 인한 성능 병목이 발생한다.
본 논문에서는 플래시 메모리와 가속기 사이의 병목을 최소화하기 위해 플래시 메모리 수준에서의 가속 기능을 제공해주는 프로세싱인플래시 (processing-in flash, PiF) 방식을 제안한다. 플래시 메모리 내부 대역폭은 플래시 메모리를 구성하는 내부 자원에 따라 낸드 인터페이스보다 높은 대역폭을 가질 수 있다. 이를 최대한 활용할 수 있는 방법에 대해 탐색하고 설계를 위해 고려해야 할 사항들을 정리하여 이에 맞는 가속기 구성을 제안한다.
제안된 플래시 수준의 가속기 성능을 측정하기 위해 본 논문은 CoX-Sim 성능 분석 시뮬레이션 툴을 구현하였다. 해당 시뮬레이터는 가속기 자원과 SSD 내부에 가용할 수 있는 메모리(DRAM, 플래시 메모리)의 자원 등을 통합적으로 고려하여 전체 가속기의 성능을 시뮬레이션할 수 있도록 지원해준다. 이를 통해 기존 연구의 성능의 주요 병목 지점을 확인하고, 이를 해결하기 위해 제한된 자원 내에서 플래시 수준의 가속기가 최대의 성능을 보일 수 있는 가속기 구성을 탐색하기 위해 다양한 실험을 진행하였다. 실험을 통해 심층 학습 기반 데이터 검색 응용에서 플래시 수준의 가속이 기존 연구에 비해 최대 4배까지 성능을 증가시킬 수 있음을 확인하였다.
-
dc.description.abstractIn recent years, deep learning (DL) has been rapidly expanded and utilized for data-intensive applications such as data retrieval. While the emergence of accelerators such as graphic processing units (GPUs) and tensor processing units (TPUs) is meeting the computational requirement of DL, communication between the storage and the accelerator with relatively low bandwidth is still causing a bottleneck in overall performance. In this regard, studies have been conducted to minimize the performance gap between communication with storage device and acceleration by providing SSD-level acceleration. However, access to flash memory through NAND interface, which still have low bandwidth, results in performance bottleneck even in the storage level acceleration.
The internal bandwidth of flash memory can have higher bandwidth than NAND interfaces, depending on the internal resources that make up flash memory. To make the most of this, in this paper, we propose the composition of accelerators accordingly by exploring the processing-in-flash method that can directly use the high bandwidth of flash memory level and organizing the considerations for design.
To measure accelerator performance at the proposed flash level, we implemented CoX-Sim, a performance analysis simulation tool. The simulator helps simulate the performance of the entire accelerator by considering the accelerator resources and the resources of memory (DRAM, flash memory) that can be available inside the SSD. Through this, various experiments were conducted to identify key bottlenecks in the performance of existing studies, and to address them, to explore the accelerator configuration in which flash-level accelerators could perform at their maximum performance within limited resources. Experiments have confirmed that flash-level acceleration in deep learning-based data retrieval applications can increase performance by up to four times over conventional studies.
-
dc.description.tableofcontents제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 목적 및 기여 3
제 3 절 논문 구성 7
제 2 장 배경 지식 8
제 1 절 심층 학습 기반 데이터 검색 시스템 8
제 2 절 SSD 구조 및 특성 11
제 3 절 데이터 이동 병목을 최소화하기 위한 기존 연구 17
제 4 절 기존 가속기 성능 평가 시뮬레이션 툴 19
제 3 장 프로세싱인플래시를 위한 디자인 공간 탐색 21
제 1 절 CoX 구조 21
제 2 절 CoX를 위한 디자인 공간 탐색 23
제 3 절 프로세싱인플래시를 위한 쓰기 방법 26
제 4 장 CoX-Sim: 프로세싱인플래시 시뮬레이터 29
제 1 절 CoX-Sim 구조 29
제 2 절 가속기 연산 모델링 30
제 3 절 데이터 흐름 매핑 모델링 32
제 4 절 메모리 모델링 35
제 5 절 CoX-Sim 에너지 모델링 45
제 6 절 CoX-Sim 성능 분석 지표 47
제 5 장 실험 결과 49
제 1 절 실험 환경 49
제 2 절 실험 결과 52
제 6 장 결론 및 향후 연구 63
제 1 절 결론 63
제 2 절 향후 연구 65
참고 문헌 66
Abstract 71
-
dc.format.extentvii, 73-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject낸드 플래시 메모리 기반 저장장치-
dc.subject가속기-
dc.subject심층 기반 학습-
dc.subject성능-
dc.subjectNAND flash memory-
dc.subjectAcceleration-
dc.subjectDeep Learning-
dc.subjectPerformance-
dc.subject.ddc621.39-
dc.title프로세싱인플래시를 위한 성능분석 및 설계공간 탐색-
dc.title.alternativePerformance Analysis and Design Space Exploration of Processing-in-Flash Storage Systems-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorJeong, Il-bo-
dc.contributor.department공과대학 컴퓨터공학부-
dc.description.degreeMaster-
dc.date.awarded2021-02-
dc.contributor.major임베디드시스템-
dc.identifier.uciI804:11032-000000164184-
dc.identifier.holdings000000000044▲000000000050▲000000164184▲-
Appears in Collections:
Files in This Item:
There are no files associated with this item.

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share