Publications

Detailed Information

Speech Enhancement using Gaussian Process and Relevance Vector Machine : 가우시안 프로세스와 Relevance Vector Machine을 이용한 데이터주도 기반 음성 향상

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

수카냐

Advisor
Kim Nam Soo
Major
공과대학 전기·컴퓨터공학부
Issue Date
2014-08
Publisher
서울대학교 대학원
Keywords
가우시안 프로세스 데이터 구동멀티 테스크 가우시안 프로세스음성 향상Speech enhancmentData-driven processGaussian process (GP)Relevance vector machine (RVM)Multi-task GP
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2014. 8. 김남수.
Abstract
본 논문에서는 가우시안 프로세스 (GP)와 relevance vector machine (RVM)을 활용한 데이터 구동(data-driven) 방식의 단일 채널 음성 향상을 소개한다. 이 방식에서의 잔여 이득은 스펙트럼 향상에 널리 사용되는 minimum mean square error log spectral amplitude (MMSE-LSA) 추정기로부터 구한 이득과 최적 이득의 차이로 정의한다. GP와 RVM을 적용함으로써 사전 (a priori) 및 사후 (a posteriori) 신호대 잡음비 (SNR)와 같은 입력 특징들과, 출력 값인 잔여 이득과의 관계를 학습할 수 있다. 이 방식은 크게 두 단계로 나뉜다. 첫 번째 단계에서는 SNR 특징과 MMSE-LSA 추정기의 이득을 계산한다. 두 번째 단계에서는 GP나 RVM을 통하여 잔여 이득을 추정하고, 이는 MMSE-LSA 모듈의 출력을 향상시키는데 사용된다. 실험 결과를 통하여 MMSE-LSA 방식과 다른 데이터 구동 방식의 음성 향상에 비하여 음질이 훨씬 개선된 것을 확인 할 수 있었다. 더 나아가 본 논문에서는 멀티 테스크 가우시안 프로세스 (multi-task GP)를 이용하여 주파수 빈들의 집단에 대하여 연대적으로 잔여 이득을 추정하는 멀티 테스크 (multi-task) 환경으로까지 실험을 확장시켰다. 예상대로 일반 GP나 RVM을 사용하여 각 주파수 빈들의 잔여 이득을 구하는 음성 향상에 비해 멀티 태스킹 환경에서의 음성 향상이 성능이 좋은 것을 확인 할 수 있었다.
This thesis presents a novel data-driven approach to single channel speech enhancement employing Gaussian process (GP) and relevance vector machine (RVM). The residual gain is defined as the difference between the optimal gain and that obtained from the minimum mean square error log-spectral amplitude (MMSE-LSA) estimator which is one of the most popular spectral enhancement approaches. GP and RVM are applied to model and learn the relationship between the input features, which are the a priori and a posteriori signal-to-noise ratios (SNRs), and the outputs corresponding to the residual gains. The proposed approach consists of two stages. In the first stage, the gain of the MMSE-LSA estimator is calculated in conjunction with the SNR features. In the second stage, the residual gains are estimated through GP or RVM and they are used to further enhance the output of the MMSE-LSA module. Experimental results show that the proposed approach produces better speech quality than not only the MMSE-LSA enhancement module but also the other data driven technique. We also extend our setting to the multi-task case where the residual gain is estimated jointly for a group of frequency bins using Multi-task GP. As expected, in the multi-task GP case, the enhancement performance is better than the case where the residual gain is estimated for each frequency bin using GP or RVM
Language
English
URI
https://hdl.handle.net/10371/123080
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share