Publications

Detailed Information

인공지능 자동음성인식기들의 한국인의 영어 발음 산출 훈련 적합성 평가 : Evaluation of conformity of AI ASR on English production training for Korean learners

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이여진

Advisor
이호영
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
자동음성인식(ASR)성능평가한국인학습자영어발음인식률인공지능산출훈련발음교육
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 언어학과, 2022. 8. 이호영.
Abstract
The aim of this paper is to verify whether an Artificial Intelligence Automatic Speech Recognition(AI ASR) can be used when developing a production training program, and to discuss how to use AI ASR by evalutating the recognition performance of AI ASR on the pronunciation spoken by Korean learners of English in a context-independent environment.
To evaluate pronunciation independently from context information, individual word forms and carrier-sentences were used as experimental data. And to find out whether performance varies depending on the position of the target sound, the recognition rate was identified in sentence-initial, sentence-medial, sentence-final position, and word-initial, word-medial, and word-final position. In evaluating the performance of AI ASR, a method of directly comparing the native speaker's response with the response of the ASR was used to distinguish between Korean learners' pronunciation errors and misrecognition of the ASR. For the stimuli to understand how accurately the ASR systems distinguish sounds, we used minimal pairs that Korean learners of English find difficult to pronounce. The six AI ASR systems were compared with each other: Google Cloud Speech-to-Text, Microsoft Azure Speech Service, IBM Watson Speech to Text, Amazon Transcribe, Naver CLOVA Speech, and phone-based ASR.
As a result of directly comparing the judgment of each AI ASR and native speakers on the English pronunciation of Korean learners in a context-independent environment, the agreement rate of phone-based ASR was the highest at 77%. When the input form was a sentence, the overall recognition rate was high, and when the target sound was at the sentence-medial or word-medial position, the recognition rate was high. The difference in the recognition rate between consonants and vowels was insignificant. In addition, the overall recognition rate of segments [b, f, p] was high and the recognition rate of [dʒ, s, ʌ] was low.
This study evaluated the context-independent performance of multiple AI ASR systems from the perspective of production training. While a phone-based ASR has the best performance for developing a production training, it was found that word-based ASR systems also showed quite high performance for developing production training using minimal pairs. Since the ASR determines the mispronunciation with a recognition rate of about 80%, a positive effect could be expected when used for pronunciation education and evaluation. When developing a production training and evaluation program, it was confirmed how to compose linguistic units to avoid misrecognition of ASR.
이 연구는 문맥 독립적 환경에서 인공지능 자동음성인식기들의 한국인 학습자의 영어 발음에 대한 인식 성능을 평가하여, 발음 산출 훈련(production training) 프로그램을 개발할 때 인공지능 자동음성인식 시스템을 활용할 수 있는지 검증하고, 있다면 어떤 방식으로 활용하면 좋을지 논의하는 것을 목적으로 한다.
문맥 정보와 독립적으로 발음을 정확하게 인식하는지 평가하기 위해 실험 자료는 개별 단어 형태와 문장틀에 넣은 형태를 활용하였으며, 목표음의 위치에 따라 성능이 달라지는지 알아보기 위해 목표음을 문두, 문중, 문미, 어두, 어중, 어말에 위치시켜 인식률을 알아보았다. 한국인 학습자의 발음 오류와 음성인식기의 오인식을 구분하고자 원어민이 한국인 학습자의 발음을 듣고 판단한 것과 자동음성인식기의 응답결과를 직접 비교하는 방법을 사용했다. 발음오류는 원어민이 발음오류라고 판단한 것이며, 오인식은 원어민의 판단과 자동음성인식기의 결과가 서로 다른 것으로 규정했다. 실험 단어로는 한국인 학습자가 발음하기 어려워하는 최소대립쌍을 활용하여 자동음성인식기가 음을 얼마나 정확하게 구분하는지 파악하였다. 상용화된 오픈 API를 제공하는 Google Cloud Speech-to-Text, Microsoft Azure Speech Service, IBM Watson Speech to Text, Amazon Transcribe, Naver CLOVA Speech와 음소인식기반 음성인식기를 포함하여 총 6가지의 자동음성인식기를 서로 비교하였다.
한국인 학습자의 영어 발음에 대한 각 인공지능 자동음성인식기와 원어민의 판단을 직접 비교하여 그 일치율을 확인한 결과, 음소인식기반 음성인식기의 일치율이 약 77%로 가장 높게 나타났다. 입력형태가 문장일 때 전반적으로 일치율이 높으며, 목표음이 문중과 어중 위치에 있을 때 일치율이 높게 나타났다. 자음의 일치율과 모음의 일치율 사이의 차이는 미미했다. 또한 전반적으로 분절음 [b, f, p]의 일치율이 높고 [dʒ, s, ʌ]의 일치율이 낮게 나타났다.
이 연구는 산출 훈련의 관점에서 문맥 독립적으로 여러 인공지능 자동음성인식기들의 성능을 평가하였다는 점에서 의미가 있다. 산출 훈련 프로그램 개발을 위해서는 음소인식기반 자동음성인식기가 가장 성능이 좋지만, 최소대립어를 활용한 산출 훈련에는 단어인식기반 자동음성인식기도 꽤나 높은 성능을 보임을 알 수 있었다. 자동음성인식기가 약 80%의 인식률로 발음의 정오를 판가름하기 때문에 발음 교육에 활용할 경우 긍정적인 효과를 예상할 수 있었으며, 산출 훈련 프로그램을 제작함에 있어서 언어학적 단위별로 어떻게 구성해야 오인식을 최대한 피할 수 있을지 확인할 수 있었다.
Language
kor
URI
https://hdl.handle.net/10371/188458

https://dcollection.snu.ac.kr/common/orgView/000000173055
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share