Publications

Detailed Information

On Applying Nonlinear Regression Models to Statistical Parametric Speech Synthesis : 통계적 음성 합성에 대한 비선형 회귀 모델 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

홍두화

Advisor
김남수
Major
공과대학 전기·컴퓨터공학부
Issue Date
2015-02
Publisher
서울대학교 대학원
Keywords
HMM-based speech synthesisparameter adaptationdecision tree-based clusteringkernel regressionrelevance vector machineRVMMLLR
Description
학위논문 (박사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. 김남수.
Abstract
은닉 마코프 모델(HMM) 기반의 파라미터식 음성 합성 기술은 지난 수 십 년 간 개발되어 왔다. 이 시스템에는 많은 장점이 있지만, 합성음의 음질 저하는 HMM 기반 시스템의 가장 심각한 단점이다. 본 논문에서는 기존의 HMM 기반 음성 합성 시스템의 단점을 해결할 새로운 대안을 제안한다.
첫 번째 접근법으로서, 이상치에 대한 클러스터링에서의 검출과 모델 파라미터 추정에서의 제거를 제안한다. 최대 우도(maximum likelihood, ML) 기반의 클러스터링 기법은 데이터 분열 문제가 발생하기 쉽다. 제안한 구조에서는 결정 트리가 자라나는 중에 강인한 평균과 분산이 추정되고, 이에 따라 얻은 결정 트리는 이상치 데이터에 강인하게 된다. 최종적인 클러스터의 파라미터 추정에서는 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 기반의 이상치 제거 알고리즘이 수행된다. 실험 결과로부터, 불충분한 데이터를 사용했을 때에 제안된 알고리즘이 시스템의 성능을 향상시킴을 확인할 수 있다.
두 번째 접근법으로서, 선형 회귀보다 더 유연한 회귀를 표현하도록 관련성 벡터 회귀(relevance vector regression, RVR) 기반의 모델 파라미터 적응 기법을 제안한다. HMM 음향 모델에 사용되는 일반적인 적응 알고리즘은 세밀한 변환 특성을 표현하기에는 선형 회귀로 너무 제한되어 있다. 이와 같은 문제를 극복하기 위해, 비선형 기법을 제안한다. 이 구조에서는 기존의 최대 우도 선형 회귀(maximum likelihood linear regression, MLLR) 기반의 기술이 확장되어 훨씬 더 많은 기저 함수를 갖도록 하고, 이후 변환 행렬을 만드는 가중치는 희소 베이지언 학습(sparse Bayesian learning)에 의해 얻게 된다. 이 때, 정확도 하이퍼 파라미터를 이용한 사전 확률의 정의에 의해 대부분의 가중치는 0이 된다. 추가적으로, 커널 함수의 정의를 통해 RVR 방식은 선형 및 비선형 회귀 모두의 장점을 가질 수 있다. 실험에서는, 제안된 기법과 기존 기법인 CMLLR을 평가하기 위해 감정 음성 데이터베이스가 사용되었다. 실험 결과로부터, RVR 적응 기법이 기존 기법보다 나은 성능을 보임을 알 수 있다.
마지막 접근법으로서, 관련성 벡터 머신(relevance vector machine, RVM)을 이용한 음성 특징열의 모델링과 생성을 제안한다. HMM에서의 모델 상태 평균 파라미터는 이에 해당하는 데이터 프레임 사이의 시간적 관련성을 고려하지 못 한다. RVM은 비선형 회귀 문제를 해결하는 데에 활용 가능하기 때문에, 상태 출력 분포의 모델 파라미터를 대체하도록 이를 활용한다. 제안된 시스템에서는 준파라미터식 비선형 회귀 방식의 사용을 통해, 정규화된 학습 특징열로부터 얻어진 상태나 음소 조각의 통계적 대표 신호를 모델링하도록 RVM이 사용된다. 제안된 RVM과 기존 HMM에 대한 비교 실험을 수행하였고, 제안된 상태 수준 RVM 기반 기법 기존 기법보다 나은 성능을 나타냄을 보인다.
The hidden Markov model (HMM)-based parametric speech synthesis techniques have been developed over the past decades. Although there are many advantages of this framework, the synthetic speech quality degradation is one of the most serious problems of the HMM-based system. In this thesis, novel alternatives are proposed to resolve the drawbacks of the conventional HMM-based speech synthesis system.
In the first approach, we propose outlier detection in clustering and removal in model parameter estimation to obtain a robust model to outlier. The maximum likelihood-based clustering technique may cause the data fragmentation problem easily. In the proposed framework, during the decision tree growing, the robust mean and variance are estimated, then the consequent decision tree become robust to outlier data. In the parameter estimation of a resulting cluster, the Gaussian mixture model (GMM)-based outlier removal algorithm is performed. From the experimental results, we can find that the proposed algorithm could enhance the performance of the system when using insufficient data.
In the second approach, we propose the relevance vector regression (RVR)-based model parameter adaptation technique to represent more flexible regression than linear regression. A typical adaptation algorithm employed to acoustic HMMs is too restricted in linear regression to represent the detail of mapping charateristics. To overcome these problems, nonlinear methods are proposed. In this framework, the conventional maximum likelihood linear regression (MLLR)-based technique is extend to have much more basis functions, and then, the weights for conducting a transform matrix are obtained by sparse Bayesian learning, in which most of weights become zero due to the definition of the prior with the precision hyper-parameters. Furthermore, by the definition kernel functions, RVR could take the both advantages of linear and nonlinear regression. In the experiments, the emotional speech database are used for adaptation to evaluate the proposed method compared to the conventional constrained MLLR. From the experimental results, we can find that the RVR adaption method performs better than the conventional method.
In the last approach, we propose an relevance vector machine (RVM) for modeling and generation of a speech feature sequence. In HMMs, the mean parameter of the HMM state can not consider temporal correlation among corresponding data frames. Since the RVM can be utilized to solve a nonlinear regression problem, we apply it to replace the model parameters of the state output distributions. In the proposed system, RVMs are employed to model the statistically representative process of the state or phone segment which is obtained from normalized training feature sequences by using the semi-parametric nonlinear regression method. We conducted the comparative experiments for the proposed RVMs with conventional HMM. It is shown that the proposed state-level RVM-based method performed better than the conventional technique.
Language
English
URI
https://hdl.handle.net/10371/119084
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share