Publications

Detailed Information

In-ear 마이크 신호와 out-ear 마이크 신호를 활용한 딥러닝 기반의 dual 채널 음성 향상 기법 : Dual-channel speech enhancement based on deep learning using in-ear and out-ear microphone signal

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

유주현

Advisor
김남수
Major
공과대학 전기·정보공학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2019. 2. 김남수.
Abstract
본 논문은 헤드셋에 내장된 in-ear 마이크와 out-ear 마이크 신호를 활용한 dual 채널 음성 향상 기법에 대한 논문이다. In-ear 마이크는 귀의 안쪽 방향으로 위치하여 화자의 이관(eustachian tube)을 통해 들어오는 소리를 수집하며, 주변 노이즈의 유입이 차단되어 SNR 이 높은 특성을 갖지만 긴 관을 통해 전달 되어 신호의 대역이 제한되는 한계를 지니고 있다. Out-ear 마이크는 귀의 바깥 쪽 방향으로 위치하여 주변 환경의 노이즈가 섞인 화자의 음성을 수집하여 주변 noise 에 의해 왜곡된 신호가 유입된다는 한계를 갖고 있다. 본 논문에선 한계점이 있는 각각의 신호를 활용하여 상호 보완적인 방향으로 음성 향상을 진행하는 음성 향상 모델을 제시한다.

이러한 2 가지 신호를 활용하여 본 연구에선 딥러닝 (deep learning) 을 기반으로 한 음성 향상 모델을 제안한다. 사용된 딥러닝 구조는 sequential 한 음성 데이터에 강점을 갖는 LSTM network 을 dual 채널로 구성하여 time-domain 의 sequential 정보를 반영하는 feature extractor 로 활용하였고, network 에 skip-connection을 더하여 음성 복원 및 noise 제거에 집중할 수 있도록 하였다. 실험은 DNN 구조 및 입력 채널 수 변화에 따른 음성 향상 모델의 성능 비교를 수행하였다. 성능 확인을 위한 측정 지표는 PESQ (perceptual evaluation of speech quality)와 STOI(short time objective intelligibility), LSD (log-spectral distance) measure를 사용하였다.
This thesis is about the dual-channel speech enhancement system that utilize signals collected through in-ear microphone and out-ear microphones embedded in headset. In-ear microphone is located in the inner direction of the ear and used to collect sounds coming through the speaker's Eustachian tubes. In-ear signal is a signal with a high signal to noise ratio (SNR) due to the blocking of ambient noise. However, it has a limitation that the frequency band of the signal has cut-off during signal is transmitted through a long tube, i.e. Eustachian tube.

Out-ear microphone is located in the outer direction of the ear, and it collects the speech signal and the noise of the surrounding environment at the same time. However, out-ear microphone signal has a limitation that the inflow of signals were distorted by ambient noise.

In this paper, we propose a speech enhancement system that enhances the noisy speech signal by using each of in-ear and out-ear signal in a complementary way. Furthermore, we used a deep learning approach in order to implement the speech enhancement system. The deep learning structure used for the speech enhancement system consisted of two channels of LSTM network, which had an advantage in addressing the sequential information of speech data, and the LSTM network was utilized as a feature extractor that reflects the sequential information in time-domain. In addition, skip-connection was added to the network to focus on speech restoration and noise cancellation.

The experiments were performed to compare the performance of the speech enhancement model according to the DNN structure and the number of input channels. In addition, the metrics used for performance verification were the perceptual evaluation of speech quality (PESQ) and short-time objective intelligence (STOI) and log-spectral distance (LSD).
Language
kor
URI
https://hdl.handle.net/10371/150751
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share