Publications

Detailed Information

Gated Recurrent Attention and Multrivariate Information Minimization for Controllable Speech Synthesis : 제어 가능한 음성 합성을 위한 게이트 재귀 어텐션과 다변수 정보 최소화

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

천성준

Advisor
김남수
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
Speech synthesisAttentionMutual informationTotal correlationStyle modelingDeep learning음성 합성어텐션상호 정보량총 상관스타일 모델링딥 러닝
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2021.8. 천성준.
Abstract
Speech is one the most useful interface that enables a person to communicate with distant others while using hands for other tasks. With the growing usage of speech interfaces in mobile devices, home appliances, and automobiles, the research on human-machine speech interface is expanding. This thesis deals with the speech synthesis which enable machines to generate speech. With the application of deep learning technology, the quality of synthesized speech has become similar to that of human speech, but natural style control is still a challenging task. In this thesis, we propose novel techniques for expressing various styles such as prosody and emotion, and for controlling the style of synthesized speech factor-by-factor.

First, the conventional style control techniques which have proposed for speech synthesis systems are introduced. In order to control speaker identity, emotion, accent, prosody, we introduce the control method both for statistical parametric-based and deep learning-based speech synthesis systems.

We propose a gated recurrent attention (GRA), a novel attention mechanism with a controllable gated recurence. GRA is suitable for learning various styles because it can control the recurrent state for attention corresponds to the location with two gates. By experiments, GRA was found to be more effective in transferring unseen styles, which implies that the GRA outperform in generalization to conventional techniques.

We propose a multivariate information minimization method which disentangle three or more latent representations. We show that control factors can be disentangled by minimizing interactive dependency which can be expressed as a sum of mutual information upper bound terms. Since the upper bound estimate converges from the early training stage, there is little performance degradation due to auxiliary loss. The proposed technique is applied to train a text-to-speech synthesizer with multi-lingual, multi-speaker, and multi-style corpora. Subjective listening tests validate the proposed method can improve the synthesizer in terms of quality as well as controllability.
음성은 사람이 손으로 다른 일을 하면서도, 멀리 떨어진 상대와 활용할 수 있는 가장 유용한 인터페이스 중 하나이다. 대부분의 사람이 생활에서 밀접하게 접하는 모바일 기기, 가전, 자동차 등에서 음성 인터페이스를 활용하게 되면서, 기계와 사람 간의 음성 인터페이스에 대한 연구가 날로 증가하고 있다. 본 논문은 기계가 음성을 만드는 과정인 음성 합성을 다룬다. 딥 러닝 기술이 적용되면서 합성된 음성의 품질은 사람의 음성과 유사해졌지만, 자연스러운 스타일의 제어는 아직도 도전적인 과제이다. 본 논문에서는 다양한 운율과 감정을 표현할 수 있는 음성을 합성하기 위한 기법들을 제안하며, 스타일을 요소별로 제어하여 손쉽게 원하는 스타일의 음성을 합성할 수 있도록 하는 기법을 제안한다.

먼저 음성 합성을 위해 제안된 기존 스타일 제어 기법들을 소개한다. 화자, 감정, 말투나, 음운 등을 제어하면서도 자연스러운 발화를 합성하고자 통계적 파라미터 음성 합성 시스템을 위해 제안된 기법들과, 딥러닝 기반 음성 합성 시스템을 위해 제안된 기법을 소개한다.

다음으로 두 시퀀스(sequence) 간의 관계를 학습하여, 입력 시퀀스에 따라 출력 시퀀스를 생성하는 어텐션(attention) 기법에 제어 가능한 재귀성을 추가한 게이트 재귀 어텐션(Gated Recurrent Attention) 를 제안한다. 게이트 재귀 어텐션은 일정한 입력에 대해 출력 위치에 따라 달라지는 다양한 출력을 두 개의 게이트를 통해 제어할 수 있어 다양한 스타일을 학습하는데 적합하다. 게이트 재귀 어텐션은 학습 데이터에 없었던 스타일을 학습하고 생성하는데 있어 기존 기법에 비해 자연스러움이나 스타일 유사도 면에서 높은 성능을 보이는 것을 실험을 통해 확인할 수 있었다.

다음으로 세 개 이상의 스타일 요소들의 상호의존성을 제거할 수 있는 기법을 제안한다. 여러개의 제어 요소들(factors)을 변수간 상호의존성 상한 항들의 합으로 나타내고, 이를 최소화하여 의존성을 제거할 수 있음을 보인다. 이 상한 추정치는 학습 초기에 수렴하여 0에 가깝게 유지되기 때문에, 손실함수를 더함으로써 생기는 성능 저하가 거의 없다. 제안하는 기법은 다언어, 다화자, 스타일 데이터베이스로 음성합성기를 학습하는데 활용된다. 15명의 음성 전문가들의 주관적인 듣기 평가를 통해 제안하는 기법이 합성기의 스타일 제어가능성을 높일 뿐만 아니라 합성음의 품질까지 높일 수 있음을 보인다.
Language
eng
URI
https://hdl.handle.net/10371/177770

https://dcollection.snu.ac.kr/common/orgView/000000168498
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share