음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현

이창헌

서울대학교 중앙도서관

S-Space 소개

My S-Space

로그인이 필요합니다.

S-Space

Publications

Detailed Information

음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현 : Noise Robust Large Vocabulary Continuous Speech Recognition using Lips and Acoustic Features

Cited 0 time in Web of Science Cited 0 time in Scopus

Export

Authors: 이창헌

Advisor: 성원용

Major: 공과대학 전기·컴퓨터공학부

Issue Date: 2015-02

Publisher: 서울대학교 대학원

Keywords: 음성인식기

Description: 학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. 성원용.

Abstract: 본 논문에서는 잡음에 강한 음성인식기 구현을 목적으로 음성과 입술영상 정보를 함께 사용한다. 기존의 EI (early integration) 과 LI (late integration)에서 각각의 장점을 살려 새로운 구조의 음향·영상 음성인식기를 제안한다. 사용되는 음향특징은 39차 MFCC (mel frequency cepstral coefficient)를 사용한다. 영상특징은 FLE (face landmark estimation)을 사용하여 입술의 위치를 추정해 입술 영상을 획득하여 추출의 전처리 과정을 거친다. 이후 영상은 블록 이산 코사인 변환 (block discrete cosine transform)과 주성분 분석 (principal component analysis)을 이용해 특징벡터를 생성한다. 음향·영상모델은 깊은 신경망 (deep neural network)을 사용하여 인식을 수행한다. 음향·영상모델의 훈련을 위한 시간별 음소의 배치 정보는 훈련된 가우시안 혼합 모델을 이용해 구해진다. 음향모델은 트라이폰 (triphone) 단위로 인식되며, 영상은 음소를 입술인식에 맞도록 그룹화한 viseme 단위로 인식된다. 415×3개의 트라이폰 상태 (state)가 사용되고, viseme은 14개의 그룹으로 구성된다. 통합단에서 두 부분의 확률은 가중치의 합으로 통합된다. 통합된 확률은 트라이폰 상태의 방사확률 (emission probability)을 의미하며 그 값을 비터비 (Viterbi)탐색에 이용한다. 실험의 기준치 (baseline)는 무소음 환경에서 훈련한 경우에서 음성만 사용한 경우로 지정했다. 최종적으로 잡음 환경에서 훈련한 경우에 영상을 함께 인식한 경우가 가장 높은 인식률을 보였고, 기준치 대비 34.92%의 인식률 향상을 할 수 있었다.

Language: Korean

URI: https://hdl.handle.net/10371/123121

Files in This Item:

000000024855.pdf 1.16 MB

Appears in Collections:

College of Engineering/Engineering Practice School (공과대학/대학원)
- Dept. of Electrical and Computer Engineering (전기·정보공학부)
  - Theses (Master's Degree_전기·정보공학부)

Altmetrics

Item View & Download Count

Show Full Item Record

Find it @ SNU

트윗하기

SNS Share