Publications

Detailed Information

동시 발화에 강인한 에코 추정을 통한 음향학적 에코 제거 시스템 : Double-talk robust acoustic echo cancellation via echo path estimation

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김지환

Advisor
김남수
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
음성 향상음향학적 에코 제거딥러닝
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 김남수.
Abstract
본 논문에서는 음향학적 에코 신호를 효과적으로 제거하기 위한 딥러닝 기반 에코 제거 모델을 제시한다.
기존 에코 제거 모델에 사용되는 적응 필터는 작은 모델 크기와 빠른 처리 속도라는 강점을 가지고 있지만, 잡음이 섞이거나 에코 패스가 변화하는 상황이나, 스피커의 비선형 왜곡, 동시 발화 등에 적절히 대처하지 못한다. 최근 원격 회의 등의 증가로 에코 상황이 다양해지면서, 이러한 비선형 상황에 대해서도 강인한 모델에 대한 수요가 증가하였고, 좋은 성능의 딥러닝 네트워크를 이용한 방법론이 많이 제시되었다. 기존 딥러닝 에코 제거 모델은 음성을 직접 추정하기에 동시 발화 상황 등에서 음성을 과하게 감쇠하거나, 원하지 않는 음성 아티팩트를 생성하는 경우가 있었다. 본 논문에서는 음성과 에코 신호를 동시에 추정하고, 네트워크 중간에 두 신호를 모두 이용하는 상호작용 레이어를 추가하여 보다 정확한 에코 제거를 수행하도록 하였다. Microsoft 사에서 실시하는 Acoustic Echo Cancellation Challenge의 데이터셋을 이용하여 동시 발화 상황과 근단, 원단 단일 발화 상황에서의 평가를 진행하였고, 기존의 딥러닝 기반 모델에 비해 향상된 근단 음성 복원 평가 수치와 에코 제거 수치를 보이는 것을 확인하였다. 추가적으로 논문에서 제시한 네트워크의 ablation study를 통해 네트워크 내의 특정 연산이 각각 에코 제거 성능에 얼마나 영향을 주었는지를 밝힌다.
This paper presents the acoustic echo cancellation model based on a deep learning network. The adaptive filters used mainly in the existing models have the strength of small model size and fast processing speed. However, they need to cope with noisy environments, changing echo paths, nonlinear distortion by speakers, and double-talk situations. As the echo situation diversified due to the recent increase in teleconferencing, the demand for robust models for such nonlinear situations has increased. Though many methodologies use deep learning networks with good performance in acoustic echo cancellation, as they directly estimate clean speech, there were cases where speech was excessively attenuated or included unwanted speech artifacts. In this paper, we estimate voice and echo signals simultaneously and add an interaction layer to deal with hidden features of both signals in the middle of the network to perform more accurate acoustic echo cancellation. We show that the proposed model's speech restoration and echo removal are improved compared to the existing deep learning-based model. Additionally, we conducted the ablation study of the network to validate how each specific operation affected the model's performance.
Language
kor
URI
https://hdl.handle.net/10371/193293

https://dcollection.snu.ac.kr/common/orgView/000000174789
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share