Publications

Detailed Information

교차 언어적 파인튜닝을 사용한 wav2vec 2.0 기반 발음 오류 검출 : wav2vec 2.0-based Mispronunciation Detection Using Cross-lingual Fine-tuning

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

지승훈

Advisor
정민화
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
발음오류검출wav2vec2.0교차언어적훈련음향모델중국인한국어학습자비원어민발화데이터셋
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 언어학과, 2022. 8. 정민화.
Abstract
Mispronunciation detection (MD), which is a subtask of computer-aided pronunciation training (CAPT), aims to construct a computational model which, given an utterance of a foreign language learner, can exactly judge whether each phoneme of the utterance is mispronounced. Utilizing the output of a well-trained mispronunciation detection model, a foreign language instructor can offer corrective feedback on the learners pronunciation, whether manually or automatically. The current main research trend in MD model is to conduct a phoneme-level speech recognition using deep neural network-based acoustic models, with non-native, foreign language learners speech dataset of sentences or words as training data. However, it is highly difficult to gather a big amount of this type of dataset which has an enough amount to train such deep neural network-based models. To explore the possibility of solving this problem, this study suggests a method of training an acoustic model only with native data of the learners background L1 and native data of the target L2, instead of non-native L2 learners data.
We utilize wav2vec 2.0, which performs well in much of recent audio-related tasks. Target L2 is Korean, learners background L1 is Mandarin Chinese. The training of wav2vec 2.0 is divided into pre-training and fine-tuning stages, and we investigate the performances and analyze the recognition results of pre-trained models which are fine-tuned with Chinese learners data of Korean, monolingual native data of Korean or Mandarin Chinese, or cross-lingual native data of Korean and Mandarin Chinese, respectively. Besides, the transcription and recognition units are from IPA system, in order to uniformly represent the phoneme-level transcription text of both languages. To do so, we also suggest a method of converting Korean and Chinese text to IPA sequences, considering the phonemic systems and phonological variations.
The cross-lingually fine-tuned models with native speech data of both languages showed 74.37% correct rate in phoneme recognition, 39.90% F1-score in mispronunciation detection, at their highest. These are 1.42%p and 1.44%p higher than those of the monolingually fine-tuned models, respectively. However, it could not reach the baseline performance, which are 80.11% correct rate, 50.00% F1-score. But when the fine-tuned model are investigated in terms of false rejection, common errors which Chinese learners of Korean make, and so on, each model showed a mixed recognition aspects.
컴퓨터 보조 발음 훈련(CAPT)의 세부 과제인 발음 오류 검출(MD)은 외국어 학습자의 발화를 입력받았을 때 각 음소에 대한 발음 오류 여부를 정확히 판단할 수 있는 계산 모델을 구축하는 것을 목표로 한다. 잘 훈련된 발음 오류 검출 모델이 출력하는 결과를 이용하여 외국어 교수자는 수동 또는 자동으로 학습자의 발음에 대한 교정 피드백을 제시할 수 있다. 현재 발음 오류 검출 분야의 주된 연구 경향은 심층 신경망 기반 음향 모델을 이용하여 음소 단위의 인식을 진행하는 것인데, 이때 음향 모델의 훈련 데이터는 학습 대상 언어로 된 문장 또는 단어를 읽는 비원어민 학습자 발화 데이터이다. 그러나 비원어민 학습자 발화 데이터는 많은 양을 확보하는 것이 매우 어렵다는 단점이 있어 심층 신경망 기반 모델의 학습에 충분한 양을 제공하지 못할 수 있다. 이와 같은 문제를 해결할 수 있는 가능성을 탐구하기 위해 본 연구에서는 비원어민 학습자 발화 데이터 대신 학습자 모어의 원어민 발화 데이터와 학습 대상 언어의 원어민 발화 데이터만을 사용하여 음향 모델을 훈련하는 방법론을 제안한다.
음향 모델은 최근 많은 음성 관련 과제에서 좋은 성능을 보이고 있으며 발음 오류 검출 분야에서도 많이 연구되고 있는 wav2vec 2.0을 이용하며, 학습 대상 언어는 한국어, 학습자 모어는 표준 중국어로 한다. wav2vec 2.0 모델은 사전 훈련과 파인튜닝 과정으로 나뉘어 학습을 진행하는데, 이미 학습되어 있는 사전 훈련 모델에 중국인 한국어 학습자 발화 데이터, 한국어 또는 중국어 원어민 발화 데이터, 한국어와 중국어 원어민 발화를 합친 데이터 등을 이용하여 각각 파인튜닝을 진행한 후 그 성능을 알아보고 인식 양상을 분석한다. 더불어 본 연구에서는 두 언어의 음소 단위 텍스트를 공통의 전사 단위로 표현할 수 있도록 IPA 체계를 전사 및 인식 단위로 한다. 이를 위해 한국어와 중국어의 음소 체계 및 음운 현상을 고려하여 각 언어 텍스트를 IPA 기호 연쇄로 변환하는 방법을 제안한다.
두 언어의 원어민 발화 데이터를 모두 이용하여 교차 언어적으로 파인튜닝한 모델은 음소 인식에서 정답률 최고 74.37%, 발음 오류 검출에서 F1-점수 최고 39.90%를 보였다. 이는 한국어 원어민 발화 데이터만을 이용하여 파인튜닝한 모델보다 각각 약 1.42%p, 1.44%p 높은 성능 수치이다. 하지만 기존의 방법론과 같이 중국인 한국어 학습자 발화 데이터로만 파인튜닝한 모델의 정답률 최고 80.11%, F1-점수 최고 50.00%에는 못 미치는 수치였다. 단 각 파인튜닝 모델을 정답 발음 오거부, 빈번하게 나타나는 중국인 한국어 학습자의 발음 오류 유형 등의 면에서 상세히 살펴보았을 때 각 파인튜닝 모델은 혼재된 인식 양상을 보였다.
Language
kor
URI
https://hdl.handle.net/10371/188457

https://dcollection.snu.ac.kr/common/orgView/000000172447
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share