Publications

Detailed Information

A Study of the Relationships Among ASR Accuracy, Human Transcription, and Comprehensibility Judgment : 영어 비원어민 발화에 대한 음성 인식기의 전사 정확도와 인간 청자의 전사 정확도 및 이해가능도 평가 간의 연관성 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

강지민

Advisor
이용원; 정민화
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
computer-assisted pronunciation trainingautomatic speech recognitionspeech transcriptionL2 speechcomprehensibilityintelligibility컴퓨터 보조 발음 훈련자동 음성 인식비원어민 음성 인식한국 영어 학습자이해가능도명료도
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 영어영문학과, 2021.8. 이용원¦¦정민화.
Abstract
This paper investigates the relationships among measures of ASR accuracy, human transcription accuracy, and human comprehensibility judgment of non-native speech, which can potentially be utilized for computer-assisted pronunciation training (CAPT). Native and non-native human listeners were asked to transcribe 1,505 short fragments of non-native read speech and subsequently rate the comprehensibility of each of the fragments on a 5-point scale. The recognition accuracy rates of two different ASR systems (Google, ETRI) were compared, one of which was for general use and the other was optimized for recognizing non-native speech. These two ASR systems accuracy rates were compared with the transcription accuracy of human transcribers, and the correlations between ASR accuracy and the two kinds of human measures (i.e., the intelligibility (or transcription accuracy) score and comprehensibility rating) were obtained and closely examined. Both ASR systems showed a significantly lower accuracy rate compared to human listeners in transcribing the non-native speech, but the ASR system whose recognition model was built based on non-native speech data showed a significant enhancement in recognizing non-native speech, almost approaching the accuracy rate of human listeners. In terms of correlations, a moderate positive correlation was obtained between ASR accuracy and human recognition accuracy and comprehensibility scores. Of the two ASR systems used in this study, it was found that the ASR that modeled non-native speech showed higher correlation with human intelligibility. These results suggest the potential of using ASR systems optimized for non-native speech in providing pronunciation feedback to L2 learners.
본 연구는 컴퓨터 기반 발음 훈련 (CAPT)에 활용하기 위해 비원어민 발화에 대한 자동음성인식기 정확도, 인간 전사 정확도, 그리고 인간 이해가능도 점수 간의 관계를 조사했다. 원어민 및 비원어민 청자는 비원어민 낭독체 발화 문장 1,505개를 전사하고 각 문장의 이해가능도 (comprehensibility)를 5점 척도로 평가하였다. 본 연구에서는 두 개의 서로 다른 자동음성인식기의 인식 정확도를 비교했는데, 그 중 하나는 일반적인 원어민 발화를 인식하기 위한 시스템이고, 다른 하나는 비원어민 음성 인식에 최적화된 시스템이다. 이 두 음성인식기의 정확도를 인간 청자의 전사 정확도와 비교하였으며, 아울러 이들 음성인식기의 인식 정확도와 인간 전사자 (transcribers)의 명료도 (intelligibility)와 이해가능도 (comprehensibility) 점수 간의 상관관계를 조사하였다. 두 자동 음성인식기는 모두 비원어민 발화를 인식하는 데에 있어서 인간 청자에 비해 낮은 정확도를 보였지만, 비원어민 발화 특성을 모델링한 음성인식기의 경우에는 인간 청자의 정확도에 근접한 정확도를 보였다. 자동음성인식기의 음성인식 정확도와 인간 인식 정확도 (명료도) 및 이해가능도 점수 사이에 중간 수준의 상관관계를 확인할 수 있었다. 본 연구에 사용된 두 음성인식 기 중, 비원어민 발화를 모델링한 음성인식기가 인간의 명료도 점수와 더 높은 상관관계를 보였다. 이러한 결과는 비원어민 발화에 최적화된 자등음성인식기를 활용할 때 제2외국어 학습자에게 유용한 발음 피드백을 제공할 수 있을 것이라는 가능성을 시사한다.
Language
eng
URI
https://hdl.handle.net/10371/177460

https://dcollection.snu.ac.kr/common/orgView/000000168341
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share