Publications

Detailed Information

적응 학습을 통한 CTC 기반 음성인식의 지식 증류 기법 : Knowledge Distillation Method for CTC-based Speech Recognition via Adjustment Training

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

윤지원

Advisor
김남수
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 전기·정보공학부,2020. 2. 김남수.
Abstract
DNN-HMM (Deep Neural Network-Hidden Markov Model) 하이브리드 음향모델을 대체한 end-to-end 음성인식 모델은 여러 음성인식의 단계를 하나의 시스템으로 통합하고 기존의 DNN-HMM 음성인식을 뛰어넘는 성능을 보임으로써 많은 연구가 이루어지고 있다. 그러나 대부분의 end-to-end 음성인식 모델의 경우, 높은 성능을 내기 위해서는 깊은 신경망과 큰 계산량이 요구된다. 따라서 한정된 메모리와 계산 내에서 높은 성능을 내기 위해서는 이에 최적화된 신경망을 설계해야 한다. 이를 위해 본 논문에서는 CTC (Connectionist Temporal Classification) 기반의 음성인식 모델을 위한 두 가지의 지식 증류 기법(knowledge distillation)을 제시한다. 첫 번째는 교사 모델(teacher model)과 학생 모델(student model)의 구조가 CNN (Convolutional Neural Network) 기반 모델, RNN (Recurrent Neural Network) 기반 모델로 각각 다른 상황에서 교사 모델의 정보를 학생 모델에 전이해주는 적응 학습이며, 두 번째는 교사 모델의 프레임 단위의 소프트맥스(softmax) 값을 학생 모델이 잘 따라갈 수 있게 학습하는 소프트맥스 지식 증류 기법이다. 본 논문에서 제안한 기법을 평가하였을 때, 베이스라인과 다른 기존의 지식 증류 기법에 비해 높은 성능 향상을 보였으며, 특히 적응 학습과 소프트맥스 지식 증류 기법을 모두 적용한 모델이 가장 큰 성능 향상을 보였다.
Recently, there has been much research for end-to-end speech recognition that replaces DNN-HMM (Deep Neural Network-Hidden Markov Model) hybrid system with an integrated system. In addition, it shows better results compared to the conventional hybrid system. However, most end-to-end speech recognition models require heavy computation and large model size to produce better predictions. So to reach competitive performance within the constraints on the storage and computational resources, it is required to design the lightweight model. In this paper, we propose two knowledge distillation methods for CTC (Connectionist Temporal Classification)-based speech recognition model. The first method is adjustment training. Even if the student model is based on the different types of neural networks of the teacher model, the teacher model can transfer knowledge to the student model. The second is the softmax knowledge distillation that the frame-level softmax value of the student model has the same as that of the teacher model. Through the experiments using LibriSpeech dataset, we achieved better WERs in comparison with conventional methods.
Language
kor
URI
http://dcollection.snu.ac.kr/common/orgView/000000159654
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share