Publications

Detailed Information

교사-학생 학습 방법을 활용한 잡음에 강인한 화자 인식 : Noise Robust Text-Dependent Speaker Verification Using Teacher-Student Learning Framework

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

채석완

Advisor
김남수
Issue Date
2019-08
Publisher
서울대학교 대학원
Keywords
잡음에 강인한 화자 인증 시스템교사-학생 학습 방법
Description
학위논문(석사)--서울대학교 대학원 :공과대학 전기·정보공학부,2019. 8. 김남수.
Abstract
Noise robustness and speaker discrimination are two basic requirements for Speaker Verification (SV) systems to perform under noisy conditions. Noise robustness is the ability of the SV model to produce less deteriorated speaker embeddings in the presence of background noise. The speaker discriminative ability indicates how much the speaker embeddings can possess speaker-specific characteristics. A commonly used way to improve the noise robustness is to artificially add noises to the training data. However, this method has a disadvantage in that it weakens the speaker discriminability. This paper introduces a teacher-student learning framework for SV using parallel clean and noisy data to alleviate the known issue mentioned above. The baseline model, called student network, is trained on both noisy speech and speaker embedding obtained from the model called teacher network, which is trained on clean speech. In the scenario of using mobile devices, our text-dependent SV system based on self-attentive x-vector was evaluated on a keyword dataset. Experimental results show that the teacher-student framework is effective in alleviating the degradation of the models speaker discriminative ability. This enables a decrease of the equal error rate under both clean and noisy conditions.
깨끗한 음성 데이터셋과 해당 음성에 대한 잡음이 섞인 데이터셋을 사용할 수 있다면, 기존의 연구들에서는 화자 인증 시스템이 잡음에 강인해지도록 하기 위해 음성 향상 알고리즘을 전처리로 사용하거나, 잡음이 섞인 음성 데이터셋으로 네트워크를 학습시켰다. 본 논문에서는 보다 효율적인 시스템 구성을 위해 교사-학생 학습 방법을 적용한 방식을 제안하였다. 먼저 교사 네트워크를 깨끗한 음성 데이터셋으로 학습시킨 후, 잡음이 섞인 음성 데이터로 학생 네트워크를 학습시킬 때, 교사 네트워크로부터 가이드를 받을 수 있도록 구성하였다. 이 방법을 통해 학생 네트워크가 출력하는 화자 임베딩이 교사 네트워크가 출력하는 화자 임베딩과 유사해지도록 해준다. 본 논문의 실험은 휴대 기기를 사용하는 시나리오상에서 진행되었으며, 자체 녹음한 문장-종속 키워드 데이터셋과 self-attentive x-vector 모델을 사용하였다. 교사 네트워크의 파라미터를 학생 네트워크 파라미터의 초깃값으로 사용하고, 본 논문에서 제안하는 교사-학생 학습 목적 함수를 사용하여, 학생 네트워크만을 사용하여 학습시켰을 때 보다 화자 구분 능력을 개선할 수 있었고, 결과적으로 깨끗한 환경과 잡음 환경 모두에서 성능이 개선되는 것을 확인할 수 있었다.
Language
kor
URI
https://hdl.handle.net/10371/161057

http://dcollection.snu.ac.kr/common/orgView/000000157844
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share