Browse

Korean speech recognition using Bayesian deep learning

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
이수지
Advisor
이재용
Major
자연과학대학 통계학과
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 자연과학대학 통계학과, 2019. 2. 이재용.
Abstract
해당 논문에서는 End-to-End 딥러닝을 활용하여 한국어 음성인식 모형을 구현하였다. End-to-End 딥러닝 중에서도 특히 CTC, Attention 방법을 활용하였으며 각 인코더와 디코더는 CNN, RNN을 기반으로 하였다. 음성 데이터는 우리말샘 온라인 사전과 한국어 낭독체로부터 수집하여 MFCC 변환하였다. 인코더의 입력값으로 한국어 초중종성을 분리하여 모형에 활용하였으며 디코딩하는 과정에서 유한 오토마타와 빔서치를 결합한 알고리즘을 통해 다시 초중종성 순서에 맞게 결합하였다. 실험은 네가지로 진행하였다. 먼저 노이즈 데이터에 대해 어떤 모형이 민감도가 낮은지 알아보았고 Attention 모형에서 인코더와 디코더의 layer 수에 따라 성능이 어떤지 확인해보았다. 또한 변분 베이즈 방식을 활용하여 음성인식에 적용해보아 기존의 방식과 비교하였다. 최종적으로 추가적인 언어모델을 적용했을 때 각 perplexity를 확인해보았다.
In this paper, we propose an end-to-end deep learning model combining Bayesian neural network with Korean speech recognition.
In the past, Korean speech recognition was a complicated task due to the excessive parameters of many intermediate steps and needs for Korean expertise knowledge.
Fortunately, Korean speech recognition becomes manageable with the aid of recent breakthroughs in "End-to-end" model. The end-to-end model decodes MFCC directly as text without any intermediate processes.
Language
kor
URI
http://hdl.handle.net/10371/151613
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Statistics (통계학과)Theses (Master's Degree_통계학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse