Publications

Detailed Information

Pseudo-labeling, Pre-training with Multilingual Untranscribed Speech Corpora and Fine-tuning for Low-resource Speech Synthesis : 전사되지 않은 외국어 음성 데이터를 이용한 슈도 레이블링과 사전 학습, 그리고 저-자원 환경에서의 음성합성을 위한 파인 튜닝

DC Field Value Language
dc.contributor.advisor조성준-
dc.contributor.author이연수-
dc.date.accessioned2023-06-29T01:52:23Z-
dc.date.available2023-06-29T01:52:23Z-
dc.date.issued2023-
dc.identifier.other000000175491-
dc.identifier.urihttps://hdl.handle.net/10371/193137-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000175491ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 산업공학과, 2023. 2. 조성준.-
dc.description.abstractSpeech is used in many places as a very effective means of information transmission, and speech synthesis with the modern deep learning models has reduced the need for people to record voice, resulting in improved productivity and cost savings. However, training the majority of text-to-speech (TTS) models requires a large amount of speech-text paired data, which makes it challenging to train a TTS model for languages with less text-labeled data. Noting that voices uttered in other languages share similar pronunciations, we propose to leverage multilingual untranscribed foreign speech corpora, which are relatively easy to procure, for training a TTS model. Concretely, first, we extract features of each foreign waveform containing phoneme information by inputting the waveform into the pre-trained wav2vec 2.0 XLSR-53 model and then perform k-means clustering on these features to obtain pseudo phoneme sequence (pseudo-label) that can play the role of text. Next, we pre-train a TTS model with the speech-pseudo phoneme sequence data. Finally, we fine-tune the pre-trained model with a small speech-text paired dataset of a target language we originally intended to use. Experimental results showed that the pre-trained models with the multilingual data learned faster and achieved lower CER values, confirming that a multilingual untranscribed speech corpora can help train a TTS model.-
dc.description.abstract음성은 매우 효과적인 정보전달 수단으로 굉장히 많은 곳에서 사용되고 있으며, 음성합성 기술은 사람이 직접 음성을 녹음할 필요를 줄여주어 생산성의 향상과 비용 절감 효과를 가져왔다. 하지만 현재 대다수의 음성합성 모델을 학습시키기 위해서는 많은 양의 음성-텍스트 데이터가 필요하고, 이는 텍스트로 전사된 데이터가 적은 언어권에서 음성합성 모델을 만드는 것을 어렵게 한다. 본 연구에서는 언어가 다르더라도 발화되는 음성들은 비슷한 발음을 공유하는 경우가 있다는 것에 주목하여, 비교적 확보하기 더 용이한 전사되지 않은 외국어 음성 데이터셋을 음성합성 모델을 학습하는 데에 활용하는 방안을 제안한다. 구체적으로는 먼저 외국어 음성 데이터셋에 wav2vec 2.0 XLSR-53 모델을 적용해 발음정보를 담은 벡터들을 추출하고, 이 벡터들을 대상으로 k-means 클러스터링을 진행해 텍스트 역할을 수행할 슈도 레이블을 구한다. 그 다음 외국어 음성-슈도 레이블을 활용해 음성합성 모델을 사전 학습하고, 마지막으로 다시 원래 학습하고자 했던 타겟 언어의 음성-텍스트 데이터를 활용해 모델을 추가로 학습한다. 실험을 통해서 외국어 음성 데이터를 활용해 사전 학습된 모델이 더 빠르게 더 낮은 CER 값을 달성하는 것을 확인함으로써, 음성으로만 구성된 외국어 데이터셋이 음성합성 모델을 학습하는 데에 도움이 될 수 있다는 것을 확인하였다.-
dc.description.tableofcontentsChapter 1 Introduction 1

Chapter 2 Related Work 5
2.1 Leveraging untranscribed speech data 5
2.2 Multi-speaker & Multilingual TTS 6
2.3 Fine-tuning a TTS model 7

Chapter 3 Proposed Method 9
3.1 Pseudo-labeling 9
3.1.1 Extracting feature sequences of waveforms 9
3.1.2 K-means clustering on the features 10
3.1.3 Pseudo-labeling with center ids 11
3.1.4 Algorithm 11
3.2 Pre-training with pseudo phoneme sequence 13
3.2.1 Network architecture 13
3.2.2 Training loss 15
3.2.3 Algorithm 17
3.3 Fine-tuning with a small speech-text paired dataset of a target language 20
3.3.1 Network architecture 20
3.3.2 Training loss 21
3.3.3 Algorithm 21

Chapter 4 Experimental Setting 24
4.1 Dataset 24
4.1.1 Multilingual untranscribed speech corpora 24
4.1.2 Speech-text paired data of a target language 25
4.2 Training setting 26
4.2.1 Baseline 27
4.2.2 Proposed method 28
4.3 Training details 28

Chapter 5 Experimental Results 30
5.1 Character Error Rate 30
5.2 Mel spectrogram 32
5.3 Speaker Embedding Cosine Similarity 34

Chapter 6 Conclusion 38

Bibliography 40

Appendix 45

국문초록 54
-
dc.format.extentviii, 54-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectSpeech synthesis-
dc.subjectMultilingual untranscribed speech corpora-
dc.subjectClustering-
dc.subjectPseudo phoneme sequence-
dc.subjectPre-training-
dc.subjectFine-tuning-
dc.subject.ddc670.42-
dc.titlePseudo-labeling, Pre-training with Multilingual Untranscribed Speech Corpora and Fine-tuning for Low-resource Speech Synthesis-
dc.title.alternative전사되지 않은 외국어 음성 데이터를 이용한 슈도 레이블링과 사전 학습, 그리고 저-자원 환경에서의 음성합성을 위한 파인 튜닝-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYeonsu Lee-
dc.contributor.department공과대학 산업공학과-
dc.description.degree석사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000175491-
dc.identifier.holdings000000000049▲000000000056▲000000175491▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share