Publications

Detailed Information

지식 증류법을 기반으로 한 심층 신경망 변환과 학습 : Deep Neural Network Transformation and Learning based on Knowledge Distillation

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

강성범

Advisor
최기영
Major
공과대학 전기·정보공학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2019. 2. 최기영.
Abstract
심층 신경망은 오늘날 이미지 분류나 음성 인식 등 여러 분야에서 뛰어난 성능으로 널리 사용되고 있다. 하지만 더 높은 인식률을 얻기 위하여 보다 깊고 보다 넓은 네트워크가 등장하였고, 이러한 네트워크들은 더 높은 연산 능력과 메모리 저장 공간을 요구하기 때문에, 상대적으로 작은 IoT 디바이스나 임베디드 시스템에 큰 네트워크를 적용하는 것이 쉽지 않았다. 따라서 크기는 작음에도 불구하고 더 높은 인식률을 가지는 네트워크를 얻을 수 있다면 이를 해결하는데 매우 유용할 것이고, 이에 네트워크 압축 방법 중 하나인 지식 증류법 (knowledge distillation)에 대하여 연구를 진행하였다.
첫 번째, 낮은 층의 압축률을 높이고 높은 층의 압축률을 낮추는 tapered-ratio compression을 제안하였다. 수직선이나 수평선과 같은 단순한 특징들은 낮은 층에서 그 특징들이 추출되고 단순한 특징들은 중복될 가능성이 높기 때문에 낮은 층의 압축률을 높일 수 있을 것이라 예상하였고, 이는 레지듀얼 경로 (residual path)를 가지는 레지듀얼 네트워크 (residual network
ResNet)에서 효과적으로 동작함을 보였다. 레지듀얼 네트워크에 대하여 tapered-ratio compression을 적용하여, 모든 층에 대하여 일정하게 압축률을 적용하는 uniform-ratio compression에 비해 더 적은 곱셈 연산 수와 더 작은 양의 메모리 접근만을 가지고도 높은 인식률에 도달할 수 있었다.
두 번째, 학습 될 student 네트워크와 비교하여 다양한 크기와 종류의 teacher 네트워크를 이용하여 지식 증류법을 적용하여, 그 효과를 보이고 결과를 분석하였다. Student 네트워크보다 더 크고 더 높은 인식률을 가지는 teacher 네트워크를 사용하여 지식 증류법을 적용하는 것이 일반적이지만, 이전 연구 born again neural network에서 보여준 같은 크기의 teacher 네트워크를 사용하는 경우에도 지식 증류법이 효과적으로 적용될 수 있음을 보였고, 이에 더 나아가 student 네트워크보다 작은 teacher 네트워크를 적용하였을 때도 효과적으로 동작함을 보여주었다. 이 때, 로스 (loss) 분석을 통하여 지식 증류법이 regularizer로 동작함을 보였고, 이에 더하여 같은 종류의 네트워크간의 지식 증류법뿐만 아니라 다른 종류의 네트워크 간의 지식 증류법 또한 효과적으로 동작함을 보였다.
Deep Neural Networks (DNNs) are widely used for many applications such as image classification and voice recognition due to their outstanding performance. However, the deeper and wider networks require the higher computing power and larger memory space and bandwidth. It is not easy for IoT devices or embedded system to adopt such networks due to their small memory space and low computing power. Thus, if one can obtain a smaller network even with higher accuracy, it will be very useful for integrating DNNs into such a system. In this thesis, we study network compression method base on knowledge distillation.
First, we propose tapered-ratio compression which applies lower compression ratio toward top layer (output side). Generally, simple features like horizontal line or vertical edge are extracted in lower layers (close to the bottom layer) and more complex features are extracted in upper layers (close to the top layer). Simple features are more likely to have redundancies than complex features. Thus we expect that more filters in lower layers can be removed than those in upper layers. Experimental results show that tapered-ratio compression can be applied effectively for residual network. By applying tapered-ratio compression into residual network, student networks achieve higher accuracy in spite of fewer multiplications and smaller amount of memory access than uniform-ratio compression cases.
Second, we analyze the results of knowledge distillation with teacher networks of several sizes and different types. In general, a knowledge distillation with a bigger teacher network which has higher accuracy is commonly used. However, as shown in previous work called born again neural networks, a knowledge distillation with a teacher network which has the same size as the student network or even with a teacher network smaller than the student network can be applied effectively too. Base on analysis of loss, we show that knowledge distillation works as a regularizer. We also show that knowledge distillation can be applied successfully to different types of network.
Language
kor
URI
https://hdl.handle.net/10371/150777
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share