Publications
Detailed Information
Optimizing Heterogeneous System Architecture Through Memory Throttling : 메모리Throttling을 통한 이기종 시스템 구조 최적화 방법
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- Bernhard Egger
- Major
- 공과대학 컴퓨터공학부
- Issue Date
- 2018-08
- Publisher
- 서울대학교 대학원
- Description
- 학위논문 (석사)-- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2018. 8. Bernhard Egger.
- Abstract
- CPU와 GPU core들의 장점을 최대한 활용하고, 자원들을 최대한 사용하기 위
해,최근 CPU와 GPU core들이 한 실리콘 칩에 함께 있는 이기종 시스템 구조
(Heterogeneous System Architecture)가 제안되었다. 비록 통합된 구조가 CPU
와 GPU의 통신을 단순화하고, 모든 Computing Unit들이 같은 메모리 공간으로
맵핑되지만, 새로운 문제점들이 발생한다. CPU와 GPU가 공유하는 메모리 대역
폭은 제한되어 있지만, GPU의 request들이 상당히 많기 때문에, 대부분의 메모리
대역폭은 GPU request들에 의해서 차지하게 된다. HSA에서는 Co-running 어플
리케이션이 실행될 때, CPU request들은 GPU request들에 의해서 우선순위를
빼앗기게 되고 성능저하로 이어진다. 본 논문에서는 HSA를 memory throttling
으로 CPU와 GPU request들을 적절한 순서로 진행하게하여, 최적화 하는 새로운
방법을 제안한다. Request들의 타입에 따라서 스케쥴링할 수 있는 비율은 설정
가능하다. 우리는 HSA 시뮬레이터인 GEM5-GPU에서 실험하였고 결과적으로,
제안한 방법을 적용하여 어플리케이션의 수행시간을 최대 23%만큼 줄였다. 메
모리에서CPU와 GPU의 request들의 대기시간또한 ratio를 변경함으로써 명확한
차이를 보였다.
In order to fully utilize the resources and advantages of CPU and GPU cores,
Heterogeneous System Architectures (HSA) that integrate CPU and GPU cores
on the same silicon chip have been proposed recently. The advantages of this
fusion architecture are simplified the communication between the CPU and the
GPU and global shared memory for all computing units
however, new problems
arise as well. The shared memory bandwidth is limited, but the number of GPU
requests is so substantial that almost the full memory bandwidth can be oc
cupied by GPU requests. The performance of an application that utilizes both
CPU and GPU cores on a HSA can be degraded because the CPUs memory
requests are not be processed in time. In this thesis, we propose a new method
ology aiming at optimizing HSAs through memory throttling so that CPU and
GPU requests can be processed with acceptable latencies. The ratio of schedul
ing different types requests is configurable. We implement and evaluate the
proposed methodology on a HSA simulator called Gem5-GPU. The evaluation
of our approach shows that the execution time of several benchmarks can be
reduced by up to 23% on average through applying the proposed methodology.
The latency of CPU and GPU requests is also significantly reduced for different
distribution ratios.
- Language
- English
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.