Publications

Detailed Information

Coordinating Multi-DNN Inference in Server and Mobile Environments : 서버와 모바일 환경에서의 인공 신경망 다중 추론 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정주성

Advisor
전병곤
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
machinelearningdeeplearninginferenceservermobile
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2022. 8. 전병곤.
Abstract
The development of deep learning algorithms and innovative hardware advancements facilitates use cases in which multiple DNNs are processed at once. Among the many instances of multi-DNN computation, we focus on two categories in this disseration: mobile applications that utilize several DNNs to solve complex tasks such as extended reality applications, and server-side setups in which multiple DNNs are served within the same pool of GPU resources.

For mobile environments, we propose Band, a new mobile inference system that coordinates multi-DNN workloads on heterogeneous processors. Band examines a DNN and partitions it into a set of subgraphs, while taking operator dependency into account. At runtime, Band dynamically selects a schedule of subgraphs from multiple possible schedules, following the scheduling goal of a pluggable scheduling policy. Fallback operators, which are not supported by certain mobile processors, are also considered when generating subgraphs.

For server environments, we propose NetFuse, a framework that merges multiple DNN models who share the same architecture but have different weights and different inputs. NetFuse is made possible by replacing operations with more general counterparts that allow a set of weights to be associated with only a certain set of inputs.
딥 러닝 알고리즘의 발전과 관련 하드웨어에서의 기술 혁신에 힘입어, 한 번에 여러 개의 DNN(인공 신경망)에 대한 처리를 필요로 하는 사례들이 생기고 있다. 이러한 다중 DNN 처리 사례들 중에서, 이 학위논문에서는 두 범주의 사례들에 집중하고 자 한다. 첫 번째 범주는 여러 DNN을 사용하여 확장 현실 응용과 같은 복잡한 작업을 필요로 하는 모바일 기기 응용 사례들이고, 두 번째 범주는 서버 환경에서 주어진 GPU 자원을 활용하여 많은 수의 DNN을 처리해야 하는 사례들이다.

본 논문에서는 먼저 Band라는 모바일 추론 시스템을 소개한다. Band는 모바일 기기의 이기종 프로세서들을 활용하여 다중 DNN 처리 작업을 효율적으로 스케줄링한다. 이 시스템은 DNN들을 수행하기에 앞서 이들을 분석하여, 연산 간 종속 관계를 유치한 채 하나의 DNN을 여러 개의 서브그래프로 분할한다. 그 후 런타임 상황에서는, 사전에 설정 가능한 스케줄링 정책을 따라 DNN을 수행하기 위한 서브그래프의 묶음을 여러 가능한 스케줄 중에서 동적으로 선택한다. 또한 이 과정에서, 특정 프로세서들에서는 수행이 불가능한 Fallback 연산도 고려하여 서브그래프를 형성하게 된다.

다음으로는 서버 환경을 대상으로 하는 다중 DNN 추론 시스템 NetFuse를 제안한다. NetFuse는 연산 구조가 같지만 입력과 파라미터가 다른 여러 DNN 들을 병합하여 수행하는 프레임워크다. NetFuse에서는 DNN의 각 연산을 더 일반적인 형태의 연산으로 치환하여, 입력의 특정 값들이 파라미터의 특정 값들과만 연결되도록 함으로써 DNN 병합을 가능하게 만든다.
Language
kor
URI
https://hdl.handle.net/10371/187769

https://dcollection.snu.ac.kr/common/orgView/000000173298
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share