Publications

Detailed Information

조건부 변분 자동인코더 기반 변환 음성의 억양 다양화 방법 연구 : Voice Conversion with Diverse Intonation using Conditional Variational Auto-Encoder

DC Field Value Language
dc.contributor.advisor박종헌-
dc.contributor.author서수빈-
dc.date.accessioned2018-12-03T02:33:10Z-
dc.date.available2018-12-03T02:33:10Z-
dc.date.issued2018-08-
dc.identifier.other000000151816-
dc.identifier.urihttps://hdl.handle.net/10371/144760-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 8. 박종헌.-
dc.description.abstract음성 변환(Voice Conversion)은 원천 화자의 언어 정보를 유지하면서 변환 대상 화자의 음성과 발화를 합성하는 작업이다. 즉, 목소리 데이터에서 언어적 특징과 스타일 특징을 분리할 수 있다는 가정하에, 스타일 특징만을 변환하는 작업을 일컫는다.



기존에 제시된 음성 변환 연구들은 스타일 변환을 하나의 함수 형태로 모델링하여 결정론적이다. 즉, 기존의 음성 변환 모델은 한 원천 화자의 입력에 대해 단 하나의 억양을 가지는 발화만을 생성하는 것으로 제한된다. 하지만 실제 화자는 하나의 스크립트에서 다양한 억양을 가지는 발화를 생성 할 수 있기 때문에 기존 연구들은 한계점을 지닌다.



이러한 한계를 극복하기 위해 모델에 확률적인 정보를 부여하기 위한 방법으로 변분 자동 인코더(Variational Auto-Encoder)를 사용하였다. 변분 자동 인코더는 딥러닝의 생성형 모델의 일환으로, 확률분포에서 잡음을 샘플링하여 기존 데이터의 분포를 생성해내는 모델이다. 본 논문에서는 화자의 억양, 즉 스타일을 담당하는 부분을 변분 자동 인코더로 모델링함으로써 분포에서 샘플링 할 때 마다 다양한 억양을 가지는 음성을 합성하는 새로운 접근법을 제안한다.



실험에 따르면 화자의 스타일 기능을 가우시안 분포의 잠복 공간으로 매핑 할 수 있다는 것이 입증되었다. 특히, 2-3 시그마 범위 내에 존재하는 샘플들에 대해 억양이 확연하게 바뀌는 것을 확인하였다. 본 논문은 또한 잠복 공간의 사후 분포를 역 자기 회귀성 유동 (Inverse Autoregressive Flow)로 보다 복잡하게 만드는 방법을 제시함으로써 보다 다양한 억양으로 음성을 변환 할 수 있었다.

결과적으로 변환된 음성은 다양한 억양을 가질 뿐만 아니라 기존의 결정론적 모델보다 우수한 음질을 제공한다.
-
dc.description.tableofcontents초록 i

목차 v

표 목차 vi

그림 목차 vii

제 1 장 서론 1

1.1 연구 배경 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 연구 내용 및 공헌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 논문구성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

제 2장 배경이론 및 관련 연구 7

2.1 음성신호처리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 이산화 및 양자화 . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2 스펙트로 그램 변환 . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.3 보코더 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.2 음성 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3 변분 자동인코더 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.1 목적 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.2 최적화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3.3 조건부 변분 자동인코더 . . . . . . . . . . . . . . . . . . . . . 14

2.4 역 자기회귀성 유동 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 관련 연구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

제 3 장 제안 기법 20

3.1 음소 분류기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.2 음성 합성기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3 샘플 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.4 역 자기회귀성 유동 적용 . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.5 모델 구조 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

제 4 장 실험 및 결과 29

4.1 실험 설계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.2 음소 분류기 학습 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3 다양한 억양 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.4 품질 평균 의견 점수 (MOS quality) . . . . . . . . . . . . . . . . . . . 37

4.5 절제 연구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.5.1 역 자기회귀성 유동의 효과 . . . . . . . . . . . . . . . . . . . . 40

4.5.2 멜 스펙트로그램과 선형 스펙트로그램의 차이 . . . . . . . . . . 40

4.5.3 프리빗 알고리즘 . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

제 5 장 결론 45

5.1 결론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 향후 발전 방향 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

참고문헌 49

Abstract 54
-
dc.formatapplication/pdf-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject.ddc670.42-
dc.title조건부 변분 자동인코더 기반 변환 음성의 억양 다양화 방법 연구-
dc.title.alternativeVoice Conversion with Diverse Intonation using Conditional Variational Auto-Encoder-
dc.typeThesis-
dc.contributor.AlternativeAuthorSoobin Suh-
dc.description.degreeMaster-
dc.contributor.affiliation공과대학 산업공학과-
dc.date.awarded2018-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share