Publications

Detailed Information

Pseudo-labeling, Pre-training with Multilingual Untranscribed Speech Corpora and Fine-tuning for Low-resource Speech Synthesis : 전사되지 않은 외국어 음성 데이터를 이용한 슈도 레이블링과 사전 학습, 그리고 저-자원 환경에서의 음성합성을 위한 파인 튜닝

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이연수

Advisor
조성준
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Speech synthesisMultilingual untranscribed speech corporaClusteringPseudo phoneme sequencePre-trainingFine-tuning
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 산업공학과, 2023. 2. 조성준.
Abstract
Speech is used in many places as a very effective means of information transmission, and speech synthesis with the modern deep learning models has reduced the need for people to record voice, resulting in improved productivity and cost savings. However, training the majority of text-to-speech (TTS) models requires a large amount of speech-text paired data, which makes it challenging to train a TTS model for languages with less text-labeled data. Noting that voices uttered in other languages share similar pronunciations, we propose to leverage multilingual untranscribed foreign speech corpora, which are relatively easy to procure, for training a TTS model. Concretely, first, we extract features of each foreign waveform containing phoneme information by inputting the waveform into the pre-trained wav2vec 2.0 XLSR-53 model and then perform k-means clustering on these features to obtain pseudo phoneme sequence (pseudo-label) that can play the role of text. Next, we pre-train a TTS model with the speech-pseudo phoneme sequence data. Finally, we fine-tune the pre-trained model with a small speech-text paired dataset of a target language we originally intended to use. Experimental results showed that the pre-trained models with the multilingual data learned faster and achieved lower CER values, confirming that a multilingual untranscribed speech corpora can help train a TTS model.
음성은 매우 효과적인 정보전달 수단으로 굉장히 많은 곳에서 사용되고 있으며, 음성합성 기술은 사람이 직접 음성을 녹음할 필요를 줄여주어 생산성의 향상과 비용 절감 효과를 가져왔다. 하지만 현재 대다수의 음성합성 모델을 학습시키기 위해서는 많은 양의 음성-텍스트 데이터가 필요하고, 이는 텍스트로 전사된 데이터가 적은 언어권에서 음성합성 모델을 만드는 것을 어렵게 한다. 본 연구에서는 언어가 다르더라도 발화되는 음성들은 비슷한 발음을 공유하는 경우가 있다는 것에 주목하여, 비교적 확보하기 더 용이한 전사되지 않은 외국어 음성 데이터셋을 음성합성 모델을 학습하는 데에 활용하는 방안을 제안한다. 구체적으로는 먼저 외국어 음성 데이터셋에 wav2vec 2.0 XLSR-53 모델을 적용해 발음정보를 담은 벡터들을 추출하고, 이 벡터들을 대상으로 k-means 클러스터링을 진행해 텍스트 역할을 수행할 슈도 레이블을 구한다. 그 다음 외국어 음성-슈도 레이블을 활용해 음성합성 모델을 사전 학습하고, 마지막으로 다시 원래 학습하고자 했던 타겟 언어의 음성-텍스트 데이터를 활용해 모델을 추가로 학습한다. 실험을 통해서 외국어 음성 데이터를 활용해 사전 학습된 모델이 더 빠르게 더 낮은 CER 값을 달성하는 것을 확인함으로써, 음성으로만 구성된 외국어 데이터셋이 음성합성 모델을 학습하는 데에 도움이 될 수 있다는 것을 확인하였다.
Language
eng
URI
https://hdl.handle.net/10371/193137

https://dcollection.snu.ac.kr/common/orgView/000000175491
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share