Publications
Detailed Information
조건부 변분 자동인코더 기반 변환 음성의 억양 다양화 방법 연구 : Voice Conversion with Diverse Intonation using Conditional Variational Auto-Encoder
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 박종헌
- Major
- 공과대학 산업공학과
- Issue Date
- 2018-08
- Publisher
- 서울대학교 대학원
- Description
- 학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 8. 박종헌.
- Abstract
- 음성 변환(Voice Conversion)은 원천 화자의 언어 정보를 유지하면서 변환 대상 화자의 음성과 발화를 합성하는 작업이다. 즉, 목소리 데이터에서 언어적 특징과 스타일 특징을 분리할 수 있다는 가정하에, 스타일 특징만을 변환하는 작업을 일컫는다.
기존에 제시된 음성 변환 연구들은 스타일 변환을 하나의 함수 형태로 모델링하여 결정론적이다. 즉, 기존의 음성 변환 모델은 한 원천 화자의 입력에 대해 단 하나의 억양을 가지는 발화만을 생성하는 것으로 제한된다. 하지만 실제 화자는 하나의 스크립트에서 다양한 억양을 가지는 발화를 생성 할 수 있기 때문에 기존 연구들은 한계점을 지닌다.
이러한 한계를 극복하기 위해 모델에 확률적인 정보를 부여하기 위한 방법으로 변분 자동 인코더(Variational Auto-Encoder)를 사용하였다. 변분 자동 인코더는 딥러닝의 생성형 모델의 일환으로, 확률분포에서 잡음을 샘플링하여 기존 데이터의 분포를 생성해내는 모델이다. 본 논문에서는 화자의 억양, 즉 스타일을 담당하는 부분을 변분 자동 인코더로 모델링함으로써 분포에서 샘플링 할 때 마다 다양한 억양을 가지는 음성을 합성하는 새로운 접근법을 제안한다.
실험에 따르면 화자의 스타일 기능을 가우시안 분포의 잠복 공간으로 매핑 할 수 있다는 것이 입증되었다. 특히, 2-3 시그마 범위 내에 존재하는 샘플들에 대해 억양이 확연하게 바뀌는 것을 확인하였다. 본 논문은 또한 잠복 공간의 사후 분포를 역 자기 회귀성 유동 (Inverse Autoregressive Flow)로 보다 복잡하게 만드는 방법을 제시함으로써 보다 다양한 억양으로 음성을 변환 할 수 있었다.
결과적으로 변환된 음성은 다양한 억양을 가질 뿐만 아니라 기존의 결정론적 모델보다 우수한 음질을 제공한다.
- Language
- Korean
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.