Publications

Detailed Information

A Study of the Relationships Among ASR Accuracy, Human Transcription, and Comprehensibility Judgment : 영어 비원어민 발화에 대한 음성 인식기의 전사 정확도와 인간 청자의 전사 정확도 및 이해가능도 평가 간의 연관성 연구

DC Field Value Language
dc.contributor.advisor이용원-
dc.contributor.advisor정민화-
dc.contributor.author강지민-
dc.date.accessioned2022-03-25T05:55:50Z-
dc.date.available2022-03-25T05:55:50Z-
dc.date.issued2021-
dc.identifier.other000000168341-
dc.identifier.urihttps://hdl.handle.net/10371/177460-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000168341ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 인문대학 영어영문학과, 2021.8. 이용원¦¦정민화.-
dc.description.abstractThis paper investigates the relationships among measures of ASR accuracy, human transcription accuracy, and human comprehensibility judgment of non-native speech, which can potentially be utilized for computer-assisted pronunciation training (CAPT). Native and non-native human listeners were asked to transcribe 1,505 short fragments of non-native read speech and subsequently rate the comprehensibility of each of the fragments on a 5-point scale. The recognition accuracy rates of two different ASR systems (Google, ETRI) were compared, one of which was for general use and the other was optimized for recognizing non-native speech. These two ASR systems accuracy rates were compared with the transcription accuracy of human transcribers, and the correlations between ASR accuracy and the two kinds of human measures (i.e., the intelligibility (or transcription accuracy) score and comprehensibility rating) were obtained and closely examined. Both ASR systems showed a significantly lower accuracy rate compared to human listeners in transcribing the non-native speech, but the ASR system whose recognition model was built based on non-native speech data showed a significant enhancement in recognizing non-native speech, almost approaching the accuracy rate of human listeners. In terms of correlations, a moderate positive correlation was obtained between ASR accuracy and human recognition accuracy and comprehensibility scores. Of the two ASR systems used in this study, it was found that the ASR that modeled non-native speech showed higher correlation with human intelligibility. These results suggest the potential of using ASR systems optimized for non-native speech in providing pronunciation feedback to L2 learners.-
dc.description.abstract본 연구는 컴퓨터 기반 발음 훈련 (CAPT)에 활용하기 위해 비원어민 발화에 대한 자동음성인식기 정확도, 인간 전사 정확도, 그리고 인간 이해가능도 점수 간의 관계를 조사했다. 원어민 및 비원어민 청자는 비원어민 낭독체 발화 문장 1,505개를 전사하고 각 문장의 이해가능도 (comprehensibility)를 5점 척도로 평가하였다. 본 연구에서는 두 개의 서로 다른 자동음성인식기의 인식 정확도를 비교했는데, 그 중 하나는 일반적인 원어민 발화를 인식하기 위한 시스템이고, 다른 하나는 비원어민 음성 인식에 최적화된 시스템이다. 이 두 음성인식기의 정확도를 인간 청자의 전사 정확도와 비교하였으며, 아울러 이들 음성인식기의 인식 정확도와 인간 전사자 (transcribers)의 명료도 (intelligibility)와 이해가능도 (comprehensibility) 점수 간의 상관관계를 조사하였다. 두 자동 음성인식기는 모두 비원어민 발화를 인식하는 데에 있어서 인간 청자에 비해 낮은 정확도를 보였지만, 비원어민 발화 특성을 모델링한 음성인식기의 경우에는 인간 청자의 정확도에 근접한 정확도를 보였다. 자동음성인식기의 음성인식 정확도와 인간 인식 정확도 (명료도) 및 이해가능도 점수 사이에 중간 수준의 상관관계를 확인할 수 있었다. 본 연구에 사용된 두 음성인식 기 중, 비원어민 발화를 모델링한 음성인식기가 인간의 명료도 점수와 더 높은 상관관계를 보였다. 이러한 결과는 비원어민 발화에 최적화된 자등음성인식기를 활용할 때 제2외국어 학습자에게 유용한 발음 피드백을 제공할 수 있을 것이라는 가능성을 시사한다.-
dc.description.tableofcontentsChapter 1. Introduction 1
1.1. Background and Motivation 1
1.2 Research Questions 6
1.3 Organization of the Thesis 7
Chapter 2. Literature Review 8
2.1 Theoretical Framework 8
2.1.1 Nativeness vs. Intelligibility Principle 8
2.1.2 Definition and Operationalization of Accentedness, Comprehensibility, and Intelligibility 9
2.2 Automatic Speech Recognition for L2 Pronunciation Feedback 12
2.2.1 Using ASR in L2 Classroom Pronunciation Exercises 12
2.2.2 Evaluating the Usefulness of ASR Systems for Pronunciation Feedback 12
2.3 The Current Research 17
Chapter 3. Methods 19
3.1 Data 19
3.2 Listeners (Transcribers/Raters) 20
3.3 Transcription and Rating 23
3.3.1 Transcription Session 23
3.3.2 Comprehensibility Rating Session 24
3.4 Automatic Speech Recognition Systems 25
3.4.1 Google Web Speech API 25
3.4.2 ETRI Open API 26
3.5 Data Analysis 27
Chapter 4. Results 30
4.1 Human Measures 30
4.1.1 Descriptive Statistics 30
4.1.2 Inter-Rater Reliability 34
4.1.3 Intelligibility and Comprehensibility Scores of Individual Speakers (Learners) 37
4.2 ASR Accuracy 39
4.3 Comparison between Human Listeners and ASR Systems 42
4.4 Correlations among ASR Accuracy, Human Intelligibility, and Comprehensibility 46
4.4.1 Google ASR's Correlation with Human Measures 47
4.4.2 ETRI ASR's Correlation with Human Measures 48
4.4.3 Correlation between Human Listeners' Intelligibility Score and Comprehensibility Rating 49
4.5 The Problem of Outliers 50
Chapter 5. Discussion 53
5.1 Comparison of ASR Systems and Human Listeners in Transcribing Non-native Speech 53
5.1.1 ASR Systems vs. Human Listeners 53
5.1.2 Native vs. Non-native Listeners 54
5.1.3 Outliers 56
5.2 Correlation of ASR Results and Human Measures 57
5.3 Comparison of the Two ASR Systems with Example Transcriptions 60
Chapter 6. Conclusion 66
6.1 Conclusion and Implications 66
6.2 Limitations and Future Studies 69
References 70
국문 초록 83
-
dc.format.extentix, 83-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectcomputer-assisted pronunciation training-
dc.subjectautomatic speech recognition-
dc.subjectspeech transcription-
dc.subjectL2 speech-
dc.subjectcomprehensibility-
dc.subjectintelligibility-
dc.subject컴퓨터 보조 발음 훈련-
dc.subject자동 음성 인식-
dc.subject비원어민 음성 인식-
dc.subject한국 영어 학습자-
dc.subject이해가능도-
dc.subject명료도-
dc.subject.ddc820-
dc.titleA Study of the Relationships Among ASR Accuracy, Human Transcription, and Comprehensibility Judgment-
dc.title.alternative영어 비원어민 발화에 대한 음성 인식기의 전사 정확도와 인간 청자의 전사 정확도 및 이해가능도 평가 간의 연관성 연구-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorJeemin Kang-
dc.contributor.department인문대학 영어영문학과-
dc.description.degree석사-
dc.date.awarded2021-08-
dc.contributor.major어학-
dc.identifier.uciI804:11032-000000168341-
dc.identifier.holdings000000000046▲000000000053▲000000168341▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share