Publications
Detailed Information
조건부 변분 자동인코더 기반 변환 음성의 억양 다양화 방법 연구 : Voice Conversion with Diverse Intonation using Conditional Variational Auto-Encoder
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 박종헌 | - |
dc.contributor.author | 서수빈 | - |
dc.date.accessioned | 2018-12-03T02:33:10Z | - |
dc.date.available | 2018-12-03T02:33:10Z | - |
dc.date.issued | 2018-08 | - |
dc.identifier.other | 000000151816 | - |
dc.identifier.uri | https://hdl.handle.net/10371/144760 | - |
dc.description | 학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 8. 박종헌. | - |
dc.description.abstract | 음성 변환(Voice Conversion)은 원천 화자의 언어 정보를 유지하면서 변환 대상 화자의 음성과 발화를 합성하는 작업이다. 즉, 목소리 데이터에서 언어적 특징과 스타일 특징을 분리할 수 있다는 가정하에, 스타일 특징만을 변환하는 작업을 일컫는다.
기존에 제시된 음성 변환 연구들은 스타일 변환을 하나의 함수 형태로 모델링하여 결정론적이다. 즉, 기존의 음성 변환 모델은 한 원천 화자의 입력에 대해 단 하나의 억양을 가지는 발화만을 생성하는 것으로 제한된다. 하지만 실제 화자는 하나의 스크립트에서 다양한 억양을 가지는 발화를 생성 할 수 있기 때문에 기존 연구들은 한계점을 지닌다. 이러한 한계를 극복하기 위해 모델에 확률적인 정보를 부여하기 위한 방법으로 변분 자동 인코더(Variational Auto-Encoder)를 사용하였다. 변분 자동 인코더는 딥러닝의 생성형 모델의 일환으로, 확률분포에서 잡음을 샘플링하여 기존 데이터의 분포를 생성해내는 모델이다. 본 논문에서는 화자의 억양, 즉 스타일을 담당하는 부분을 변분 자동 인코더로 모델링함으로써 분포에서 샘플링 할 때 마다 다양한 억양을 가지는 음성을 합성하는 새로운 접근법을 제안한다. 실험에 따르면 화자의 스타일 기능을 가우시안 분포의 잠복 공간으로 매핑 할 수 있다는 것이 입증되었다. 특히, 2-3 시그마 범위 내에 존재하는 샘플들에 대해 억양이 확연하게 바뀌는 것을 확인하였다. 본 논문은 또한 잠복 공간의 사후 분포를 역 자기 회귀성 유동 (Inverse Autoregressive Flow)로 보다 복잡하게 만드는 방법을 제시함으로써 보다 다양한 억양으로 음성을 변환 할 수 있었다. 결과적으로 변환된 음성은 다양한 억양을 가질 뿐만 아니라 기존의 결정론적 모델보다 우수한 음질을 제공한다. | - |
dc.description.tableofcontents | 초록 i
목차 v 표 목차 vi 그림 목차 vii 제 1 장 서론 1 1.1 연구 배경 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 연구 내용 및 공헌 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 논문구성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 제 2장 배경이론 및 관련 연구 7 2.1 음성신호처리 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.1 이산화 및 양자화 . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.2 스펙트로 그램 변환 . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1.3 보코더 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 음성 변환 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3 변분 자동인코더 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.1 목적 함수 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.3.2 최적화 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.3 조건부 변분 자동인코더 . . . . . . . . . . . . . . . . . . . . . 14 2.4 역 자기회귀성 유동 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.5 관련 연구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 제 3 장 제안 기법 20 3.1 음소 분류기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.2 음성 합성기 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.3 샘플 생성 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.4 역 자기회귀성 유동 적용 . . . . . . . . . . . . . . . . . . . . . . . . . 25 3.5 모델 구조 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 제 4 장 실험 및 결과 29 4.1 실험 설계 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 음소 분류기 학습 결과 . . . . . . . . . . . . . . . . . . . . . . . . . . 32 4.3 다양한 억양 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.4 품질 평균 의견 점수 (MOS quality) . . . . . . . . . . . . . . . . . . . 37 4.5 절제 연구 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 4.5.1 역 자기회귀성 유동의 효과 . . . . . . . . . . . . . . . . . . . . 40 4.5.2 멜 스펙트로그램과 선형 스펙트로그램의 차이 . . . . . . . . . . 40 4.5.3 프리빗 알고리즘 . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 제 5 장 결론 45 5.1 결론 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.2 향후 발전 방향 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 참고문헌 49 Abstract 54 | - |
dc.format | application/pdf | - |
dc.format.medium | application/pdf | - |
dc.language.iso | ko | - |
dc.publisher | 서울대학교 대학원 | - |
dc.subject.ddc | 670.42 | - |
dc.title | 조건부 변분 자동인코더 기반 변환 음성의 억양 다양화 방법 연구 | - |
dc.title.alternative | Voice Conversion with Diverse Intonation using Conditional Variational Auto-Encoder | - |
dc.type | Thesis | - |
dc.contributor.AlternativeAuthor | Soobin Suh | - |
dc.description.degree | Master | - |
dc.contributor.affiliation | 공과대학 산업공학과 | - |
dc.date.awarded | 2018-08 | - |
- Appears in Collections:
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.