Publications

Detailed Information

한국어 자동 음성 인식의 오류 유형에 대한 음운론적 연구 : A Phonological Study on the Error Types of Korean Automatic Speech Recognition

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김아름

Advisor
김성규
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
한국어 음성 인식음성 인식 오류유사 음소성별 음성 인식변이음 음성 인식
Description
학위논문(박사) -- 서울대학교대학원 : 인문대학 국어국문학과, 2022.2. 김성규.
Abstract
The purpose of this dissertation is to explain the phonological factors that affect errors of Korean automatic speech recognition and to classify the patterns of speech recognition errors through characteristics of phoneme analysis. A speech recognition experiment was conducted with all pronounced monosyllables as the subject of the study. When there is a tendency to misrecognize one phoneme as a specific phoneme in an environment where sound recognition errors occur, I suggested the notion of similar phoneme, then I presented similar phonemes at each phoneme.
I described recognition errors of initial consonants in chapter 3. Recognition rate of fricatives and sonorant, which the frequency band is located in the extreme, is high. However, recognition rate of plosive is very low because they are close to silence and there are few additional clues. Recognition of initial consonant tend to make errors in the environment that phonetic variants where vowel follows, and in which sound characteristics are confused between consonants. Plain sound is mainly confused with aspirated sound, and this error can be understood in the relationship with the F0 characteristic according to gender. It is estimated that the low F0 value of men causes misrecognition from aspirated to plain sound, and the high F0 value of women causes misrecognition from plain to aspirated sound. For fortis and aspirated, misrecognition between fortis and aspirates mainly appears. This means that the phoneme is relatively accurate in that it is fortis and aspirated. Fortis and aspirated sounds have distinctive characteristics such as tension and aspiration, making it easier to recognize than plain sounds. Like fortis and aspirated sounds, fricatives and affricatives are perceived relatively clearly, however, in a high vowel environment, when the discrimination of the friction section is weakened, or friction and aspiration are not properly discriminated, an error occurs between themselves.
I described recognition errors of vowels in chapter 4. Among the monophthongs, the vowel with the highest recognition rate is ㅣ, and the vowel with the lowest recognition rate is ㅜ, and in general, the recognition rate of the back vowels appears to be low. Monophthongs cause recognition errors due to the influence of the articulation position of the preceding consonants, or errors due to phonetic and articulation spatial differences in vowels according to gender. Recognition errors related to articulation positions are mainly observed in vowels ㅡ. In modern Korean, ㅗ and ㅜ are considered to be vowels with a large difference in articulation space according to generation and gender, of which the misrecognition of ㅗ as ㅜ is significant in women. This is regarded as an error due to the difference in articulation space of the round vowel according to gender. The misrecognition of ㅓ as ㅏ is also a significant error in women, which is concerned with the difference in F1 characteristics between men and women.
In the recognition of diphthongs, the pronunciation characteristics in natural speech affect the recognition of j-combined diphthong. In addition to the existence of initial consonants, the probability of the appearance of w-combined diphthong based on the frequency of use influenced the recognition error.
I described recognition errors of final consonants in chapter 5. In the case of final sound, the recognition rate is lowered in the order of lateral, nasal, and plosive and recognition errors between plosives and nasals mainly occur. In the case of final consonants, many errors in not recognizing the existence of phonemes themselves are observed. This is an error due to the lack of clear recognition of the boundary between the formant trasition or preceding vowels and final consonants.
Based on the above discussion, I describes the phonological types of speech recognition errors in chapter 6. Speech recognition errors appear to occur when they deviate from the typical range of acoustic features of each phoneme set by the speech recognition algorithm, or when a sound at its boundary is detected. In this case, the misrecognized phoneme is determined by which of the various acoustic characteristics defining phoneme is beyond the limit. At this time, a specific phonological environment may be involved in causing the characteristics of the spoken sound to deviate from the limitations of the corresponding phoneme, or errors between phonemes with similar acoustic characteristics may cause recognition without specific conditions. I classified speech recognition errors caused by factors such as the former as recognition errors due to phonetic variation type, and the latter as recognition errors due to acoustic factors. In addition, I supposed that the phoetic and phonological characteristics of male and female speech also affected speech recognition errors, which was set as the type of recognition errors due to gender factors.
본 연구의 목적은 한국어 자동 음성 인식의 인식 오류에 영향을 주는 음운론적 요인들을 밝히고, 음성 인식 오류가 주로 발생하는 음운론적 환경과 오인식되는 음소의 특성 분석을 통해, 음성 인식 오류의 유발 요인에 따라 오류를 유형화하는 것이다. 본고에서는 이를 위해 발음 가능한 한국어의 모든 단음절을 대상으로 하여 음성 인식 실험을 진행하였으며, 인식 오류가 발생하는 환경에서 한 음소를 특정 음소로 오인식하는 경향이 나타날 때, 이를 해당 음소의 유사 음소로 간주하고, 초성·중성·종성 순으로 각 음소별 유사 음소를 제시하였다.
이 중 초성의 인식 오류 양상은 3장에서 기술된다. 초성의 경우 주파수 대역이 가장 극단에 위치한 마찰음과 공명음의 인식률이 높게 나타났으며, 조음 과정 중 묵음에 가까운 폐쇄 단계를 가지며 추가적인 인식 단서가 적은 평파열음의 인식률이 가장 낮은 것으로 확인되었다. 초성 자음들은 음성적 변이가 발생하는 후행 모음 환경에 놓이거나, 자음들 간의 음향 특성이 혼동되는 환경에서 오류가 발생하는 경향을 보인다. 초성 파열음 중 평음은 주로 격음과 혼동되는데, 이러한 오류는 성별에 따른 F0 특성과의 관계 속에서 이해될 수 있다. 남성의 낮은 F0값은 격음에서 평음으로의 오인식을, 여성의 높은 F0값은 평음에서 격음으로의 오인식을 유발하는 것으로 추정된다. 경음과 격음은 경음 간, 격음 간의 오인식이 주로 나타난다. 이는 해당 음소가 경음과 격음이라는 점은 비교적 정확히 인식된다는 의미이며, 경음과 격음은 긴장이나 기식과 같은 유표적인 특성을 가지고 있어 평음보다 인식이 용이한 듯 보인다. 마찰음과 파찰음도 경음·격음과 마찬가지로 마찰음이라는 범주와 파찰음이라는 범주는 비교적 명확히 지각된다. 단 이들은 고모음 환경에서 마찰 구간의 변별이 약해지거나, 마찰과 기식이 적절히 변별되지 않을 경우 서로 간의 오류가 발생한다.
중성의 인식 오류 양상은 4장에서 기술된다. 단모음 중 인식률이 가장 높은 모음은 ㅣ, 가장 낮은 모음은 ㅜ이며 대체로 후설모음의 인식률이 낮게 나타난다. 단모음은 선행 자음의 조음 위치의 영향으로 인식 오류가 유발되거나, 성별에 따른 모음의 음성적·조음 공간적 차이에 의해 오류가 발생한다. 조음 위치와 관련된 인식 오류는 주로 모음 ㅡ에서 관찰된다. ㅗ와 ㅜ는 현대 한국어에서 세대·성별에 따른 조음 공간의 차이가 큰 모음으로 간주되는데, 이 중 ㅗ의 ㅜ로의 오인식은 여성에게서 유의미하게 나타난다. 이는 성별에 따른 원순모음의 조음 공간 차이에 의한 오류로 판단된다. ㅓ의 ㅏ로의 오인식도 여성에게서 유의미하게 관찰되는 오류이며, 이는 남성과 여성의 F1 특성 차이에서 기인한 것으로 판단된다. 이중모음의 인식에 있어서 j계 이중모음은 자연 발화에서의 발음 특성이 인식에 영향을 미치며, w계 이중모음은 초성의 존재 여부와 함께, 사용 빈도에 근거한 이중모음의 출현 확률이 인식 오류에 영향을 주었다.
종성의 인식 오류 양상은 5장에서 기술된다. 종성의 경우 유음, 비음, 파열음 순으로 인식률이 낮아지며, 파열음 상호 간, 비음 상호 간의 인식 오류가 주로 발생한다. 종성의 경우 음소의 존재 자체를 인식하지 못하는 오류도 다수 관찰되는데, 이는 포먼트 전이 양상이나 선행 모음과 종성 간의 경계가 명확히 인식되지 못한 데에서 기인한 오류이다.
이상의 논의를 바탕으로 6장에서는 음성 인식 오류의 음운론적 유형에 대해 기술한다. 음성 인식 오류는 음성 인식 알고리즘이 정해둔 각 음소들의 전형적인 음향 특징 범위를 벗어나거나, 그 경계에 있는 음이 감지되었을 때 발생하는 것으로 보인다. 그리고 이러한 경우 음소를 정의하는 여러 음향 특성 중 어떠한 특성이 임계점을 벗어났는지에 따라 오인식되는 음소가 결정된다. 이때 발화음의 특성이 해당 음소의 임계점을 벗어나게 만드는 데에는 특정 음운론적 환경이 관여할 수도 있고, 특정 조건 없이 음향적 특성이 유사한 음소들 간의 오류가 인식을 유발할 수도 있다. 본고에서는 이 중 전자와 같은 요인에 의해 발생하는 음성 인식 오류를 음성적 변이에 의한 인식 오류 유형으로, 후자를 음향적 요인에 의한 인식 오류 유형으로 분류하였다. 이외에 남성과 여성의 발화가 가진 음성적·음운론적 특성도 음성 인식 오류에 영향을 주는 것으로 판단하였으며, 이는 성별 요인에 의한 인식 오류 유형으로 설정하였다.
Language
kor
URI
https://hdl.handle.net/10371/183642

https://dcollection.snu.ac.kr/common/orgView/000000171603
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share