Publications

Detailed Information

발음 정확도 기반의 마비말장애 중증도 자동 분류 : Automatic Severity Classification of Dysarthric Speech based on Pronunciation Accuracy

DC Field Value Language
dc.contributor.advisor정민화-
dc.contributor.author여은정-
dc.date.accessioned2021-11-30T04:37:13Z-
dc.date.available2021-11-30T04:37:13Z-
dc.date.issued2021-02-
dc.identifier.other000000165674-
dc.identifier.urihttps://hdl.handle.net/10371/175842-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000165674ko_KR
dc.description학위논문 (석사) -- 서울대학교 대학원 : 인문대학 언어학과, 2021. 2. 정민화.-
dc.description.abstractDysarthria is a motor speech disorder that occurs when muscles related to speech production are paralyzed or weakened. Dysarthria is diagnosed of its severity levels by trained speech therapists, who use perceptual evaluation on the purpose of providing appropriate treatments to each patient. While the professional diagnosis is important, perceptual evaluation not only takes a lot of time and effort but can also be biased and subjective. The automatic severity classification of dysarthric speech could compensate for these shortcomings and aid the therapists.
Pronunciation accuracy, consisted of the percentage of correct phonemes and the degree of vowel distortion, is one of the most commonly used features in a clinical setting to classify the severity levels of dysarthria. However, few previous studies have considered pronunciation accuracy as a feature for automatic severity classification. In this paper, we propose pronunciation accuracy to be beneficial in automatically classifying the severity levels for dysarthric speech.
Experiments were designed to confirm the usefulness of these features in contrast to the features used in previous studies: spectral features(MFCCs), voice quality features, and prosody features. Two feature selection methods-Recursive Feature Elimination(RFE) and Extra Trees Classifier(ETC) were used to determine the optimal feature set. Each optimal feature set was used as the input to two classifiers-Support Vector Machine(SVM) and Multiple Layer Perceptron(MLP). The classifiers were trained to determine the severity levels of each utterance into five categories - healthy, mild, mild-to-moderate, moderate-to-severe, severe. The performance of the classifier was evaluated using accuracy, precision, recall, and F1-score metrics.
Results from the experiments before and after adding pronunciation accuracy features were compared. For the SVM classifier, the classification accuracy showed a relative increase of 15.83%, 25.42%, 23.39% before feature selection, after applying the RFE algorithm, and applying the ETC algorithm, respectively. For the MLP classifier, the relative increase accuracy of 28.97%, 21.19%, 22.95% were seen. ETC algorithm-SVM classifier experiment showed the best performance with 77.5% accuracy. The optimal feature set included % of voice breaks, speech duration, Percentage of Correct Consonants, Percentage of Correct Vowels, Percentage of Correct Phonemes, Vowel Space Area(VSA), Vowel Articulatory Index(VAI), Formant Centralized Ratio(FCR), and F2-ratio. Furthermore, the selected feature sets from each experiment were compared. When the pronunciation accuracy features were included, many voice quality features and prosody features that were selected in the baseline experiment were replaced by the pronunciation accuracy features. The contribution weight of the features from the optimal feature set showed that all pronunciation accuracy features have higher contribution weight compared to voice quality and prosody features.
The results suggest two ways. First, the pronunciation accuracy features are helpful for the automatic severity classification of dysarthria. While pronunciation accuracy features have been generally used by speech pathologists, few studies related to automatic severity classification have looked into their effect. This study proves that the pronunciation accuracy features are useful for automatic severity classification as for a clinical setting.
Second, the pronunciation accuracy features play a more important role than voice quality features or prosody features. Features related to articulation are proven to have the highest correlation with the speech intelligibility score of dysarthric speech among several features related to speech production. This study indicates that this fact holds the same for automatic severity classification.
-
dc.description.abstract마비말장애는 중추 신경계 및 자율 신경계의 손상으로 말소리 산출과 관련된 근육이 마비되거나 약해지면서 생기는 말운동장애이다. 언어재활사는 알맞은 중재방안을 모색하기 위해 마비말장애의 중증도를 판단한다. 그러나 일반적으로 장애 중증도 분류에 사용되는 청지각적 평가는 많은 시간과 노력이 소요될 뿐만 아니라 평가자 간 및 평가자 내 신뢰도를 확보하기 어렵다는 단점이 있다. 마비말장애 중증도 자동 분류 기술은 이러한 단점들을 보완하며 언어재활사의 업무를 보조할 수 있다. 분류에 소요되는 시간과 노력을 절약하고, 객관적이고 일관된 결과를 제공하기 때문이다.
선행연구에서는 마비말장애 중증도 자동 분류를 위한 다양한 특징 셋을 제안하였다. 음성의 전반적 특징을 반영하는 스펙트럼 특징만을 사용하거나, 음성적 특징을 세분화하여 음질 특징, 운율 특징 등으로 특징 셋을 구성하였다. 그러나 선행 연구의 특징 셋은 음소 단위의 특징인 발음 정확도 특징을 반영하고 있지 않다. 발음 정확도 특징은 언어치료 분야에서 마비말장애의 중증도를 구분할 때 가장 일반적으로 사용되는 반면, 장애 중증도 자동 분류 연구에서는 상대적으로 거의 사용되지 않았다. 본 논문은 발음 정확도 특징을 마비말장애 중증도 자동 분류에 사용하는 것을 제안한다. 발음 정확도 특징은 음소정확도 특징과 모음왜곡도 특징을 포함하는 개념으로 음소정확도 특징은 자음정확도, 모음정확도, 음소정확도(자음+모음), 모음왜곡도 특징은 모음사각도 면적, VAI, FCR, F2-Ratio로 구성된다. 본 논문에서는 발음 정확도 특징의 유용성을 확인하기 위해 앞서 언급한 스펙트럼 특징(MFCCs), 음질 특징, 운율 특징을 베이스라인 특징으로 사용하였다. 추출된 특징 셋은 Recursive Feature Elimination(RFE)과 Extra Trees Classifier(ETC) 두 개의 특징 선택 알고리즘을 통해 최적화되었다. 선택된 특징들은 SVM(Support Vector Machine)과 MLP(Multiple Layer Perceptron) 분류기의 입력값으로 사용되었고, 분류기는 각 음성의 장애 중증도(비장애/경도/경도-중등도/중등도-중도/중도)를 분류하도록 학습되었다. 분류기의 성능은 정확도, 정밀도, 재현율, F1-점수로 평가되었다.
발음 정확도 특징 추가 전후의 실험 결과를 살펴본 결과, 특징 선택 전, RFE 적용 후, ETC 적용 후 SVM의 분류 정확도 상대적 증가율은 각각 15.83%, 25.42%, 23.39%였고, MLP의 분류 정확도 상대적 증가율은 각각 28.97%, 21.19%, 22.95%로 나타났다. 최고의 성능을 보인 실험은 ETC 특징 선택 알고리즘-SVM 조합 실험으로, 77.5%의 분류 정확도를 보였다. 더 나아가, 각 실험에서 특징 선택 알고리즘이 선택한 특징과 특징 별 개별 기여도를 살펴보았다. 그 결과, 발음 정확도 특징을 추가했을 때 베이스라인에서 선택되었던 음질, 운율 특징 다수가 발음 정확도 특징에 의해 대체되었으며, 발음 정확도 특징은 음질, 운율 특징보다 더 높은 기여가중치를 가졌다.
실험 결과는 다음을 시사한다. 첫째, 발음 정확도 특징은 마비말장애 중증도 자동 분류에 도움이 된다. 발음 정확도 특징 추가 전후 분류 정확도를 비교했을 때, 발음 정확도 특징을 추가했을 때 더 높은 분류 정확도를 보였다. 발음 정확도 특징은 언어치료 분야에서 일반적으로 사용되어왔지만, 자동 분류 연구에서는 명시적으로 사용된 경우가 적다. 실험 결과는 발음 정확도 특징이 자동 분류에서도 사용되어야 함을 시사한다. 둘째, 발음 정확도 특징은 마비말장애 중증도 자동 분류에서 음질, 운율 특징보다 더 큰 영향력을 행사한다. 실험 별 선택된 특징을 살펴본 결과, 발음 정확도 특징이 음질, 운율 특징에 비해 대체되었다. 특징 별 개별 기여도를 살펴본 결과, 모든 발음 정확도 특징의 개별 기여도가 음질, 운율 특징의 개별 기여도가 높았다. 이는 발음 정확도 특징이 다른 특징보다 마비말장애 중증도와 높은 상관관계를 보인다는 선행연구와 일맥상통한 결과이다.
-
dc.description.tableofcontents1. 서론 ............................................................................................... 1
2. 관련 연구 ....................................................................................... 4
2.1 장애 중증도 분류 기준 .......................................................................... 4
2.1.1 말명료도 ........................................................................................ 4
2.1.2 자음정확도 ........................................................................................ 5
2.2 마비말장애 음성의 발음 정확도 특징 .............................................. 6
2.3 마비말장애 음성 장애 중증도 자동 분류 .......................................... 7
3. 실험 방법론 .................................................................................. 11
3.1 실험 설계 ................................................................................................. 11
3.2 특징 정의 및 특징 추출 방법 ............................................................ 11
3.2.1 Mel Frequency Cepstral Coefficients (MFCCs) .............. 12
3.2.2 음질 특징 ..................................................................................... 14
3.2.3 운율 특징 ..................................................................................... 15
3.2.3.1 발화 속도 ............................................................................ 15
3.3.3.2 음높이 ................................................................................. 15
3.3.3.3 리듬 ..................................................................................... 16
3.2.4 발음 정확도 특징 ....................................................................... 17
3.4.1 음소정확도 ............................................................................ 17
3.4.2 모음왜곡도 ............................................................................ 18
3.3 특징 선택 알고리즘 ............................................................................... 19
3.2.3.1 Recursive Feature Elimination(RFE) ........................ 20
3.3.3.2 Extra Trees Classifier(ETC) ...................................... 20
3.4 머신러닝 분류기 ..................................................................................... 21
3.4.1 Support Vector Machine(SVM) ............................................ 21
4.3.2 Multiple Layer Perceptron(MLP) ......................................... 22
4. 데이터베이스 ................................................................................ 24
4.1 QoLT(Quality of Life Technology) 코퍼스 ................................... 24
4.2 자음정확도 평가 ..................................................................................... 24
4.3 말명료도 평가 ......................................................................................... 25
4.4 자음정확도 평가 결과와 말명료도 평가 결과 비교 ..................... 26
4.5 데이터베이스 통계 분석 ...................................................................... 27
4.5.1 음질 특징 ..................................................................................... 27
4.5.2 운율 특징 ..................................................................................... 28
4.5.2.1 발화 속도 ............................................................................ 28
4.5.2.2 음높이 .................................................................................. 29
4.5.2.3 리듬 ...................................................................................... 30
4.5.3 발음 정확도 특징 ..................................................................... 31
4.5.3.1 음소정확도 .......................................................................... 31
4.5.3.2 모음왜곡도 ........................................................................ 32
5. 실험 .............................................................................................. 34
5.1 실험 데이터 구성 ................................................................................... 34
5.2 분류기 성능 척도 ................................................................................... 34
5.3 실험 결과 ............................................................................................... 35
5.3.1 특징 선택 적용 전 ....................................................................... 35
5.3.2 RFE 적용 후 ................................................................................ 35
5.3.3 ETC 적용 후 ............................................................................... 37
5.4 실험 결과 정리 ....................................................................................... 39
5.4.1 분류 정확도 비교 ............................................................................ 39
5.4.2 특징 선택 .......................................................................................... 41
5.5 토의............................................................................................................. 43
6. 결론 .............................................................................................. 45
참 고 문 헌 ....................................................................................... 47
Abstract ........................................................................................... 52
-
dc.format.extentvi, 54-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject마비말장애-
dc.subject장애 중증도 자동 분류-
dc.subject발음 정확도-
dc.subject머신러닝-
dc.subject특징 선택-
dc.subjectdysarthria-
dc.subjectautomatic severty classification-
dc.subjectpronunciation accuracy-
dc.subjectmachine learning-
dc.subjectfeature selection-
dc.subject.ddc401-
dc.title발음 정확도 기반의 마비말장애 중증도 자동 분류-
dc.title.alternativeAutomatic Severity Classification of Dysarthric Speech based on Pronunciation Accuracy-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYEO Eun Jung-
dc.contributor.department인문대학 언어학과-
dc.description.degreeMaster-
dc.date.awarded2021-02-
dc.contributor.major언어학전공-
dc.identifier.uciI804:11032-000000165674-
dc.identifier.holdings000000000044▲000000000050▲000000165674▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share