Publications

Detailed Information

음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현 : Noise Robust Large Vocabulary Continuous Speech Recognition using Lips and Acoustic Features

DC Field Value Language
dc.contributor.advisor성원용-
dc.contributor.author이창헌-
dc.date.accessioned2017-07-14T02:58:37Z-
dc.date.available2017-07-14T02:58:37Z-
dc.date.issued2015-02-
dc.identifier.other000000024855-
dc.identifier.urihttps://hdl.handle.net/10371/123121-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. 성원용.-
dc.description.abstract본 논문에서는 잡음에 강한 음성인식기 구현을 목적으로 음성과 입술영상 정보를 함께 사용한다. 기존의 EI (early integration) 과 LI (late integration)에서 각각의 장점을 살려 새로운 구조의 음향·영상 음성인식기를 제안한다. 사용되는 음향특징은 39차 MFCC (mel frequency cepstral coefficient)를 사용한다. 영상특징은 FLE (face landmark estimation)을 사용하여 입술의 위치를 추정해 입술 영상을 획득하여 추출의 전처리 과정을 거친다. 이후 영상은 블록 이산 코사인 변환 (block discrete cosine transform)과 주성분 분석 (principal component analysis)을 이용해 특징벡터를 생성한다. 음향·영상모델은 깊은 신경망 (deep neural network)을 사용하여 인식을 수행한다. 음향·영상모델의 훈련을 위한 시간별 음소의 배치 정보는 훈련된 가우시안 혼합 모델을 이용해 구해진다. 음향모델은 트라이폰 (triphone) 단위로 인식되며, 영상은 음소를 입술인식에 맞도록 그룹화한 viseme 단위로 인식된다. 415×3개의 트라이폰 상태 (state)가 사용되고, viseme은 14개의 그룹으로 구성된다. 통합단에서 두 부분의 확률은 가중치의 합으로 통합된다. 통합된 확률은 트라이폰 상태의 방사확률 (emission probability)을 의미하며 그 값을 비터비 (Viterbi)탐색에 이용한다. 실험의 기준치 (baseline)는 무소음 환경에서 훈련한 경우에서 음성만 사용한 경우로 지정했다. 최종적으로 잡음 환경에서 훈련한 경우에 영상을 함께 인식한 경우가 가장 높은 인식률을 보였고, 기준치 대비 34.92%의 인식률 향상을 할 수 있었다.-
dc.description.tableofcontents목 차

제 1 장 서론 1
제 1 절 연구의 배경 1
제 2 절 관련 연구 및 연구 내용 2

제 2 장 음향·영상 모델의 구조 및 특성 4
제 1 절 음향특징과 영상특징 추출 5
제 2 절 깊은 신경망의 특성과 훈련 14
제 3 절 GMM-HMM과 DNN-HMM 특성 18

제 3 장 음향·영상 음성인식기 구현 20
제 1 절 음향·영상 음성인식기의 구조적 특성 21
제 2 절 깊은 신경망을 이용한 음향·영상 훈련 23
제 3 절 음향모델과 영상모델의 통합 30

제 4 장 실험결과 33
제 1 절 실험환경 33
제 2 절 음소인식 및 viseme 인식률 분석 34
제 3 절 잡음에 따른 인식률 분석 37
제 4 절 영상과 음성을 사용한 인식률 상승결과 41

제 5 장 결론 43
참고문헌 44
Abstract 47
-
dc.formatapplication/pdf-
dc.format.extent1213404 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject음성인식기-
dc.subject.ddc621-
dc.title음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현-
dc.title.alternativeNoise Robust Large Vocabulary Continuous Speech Recognition using Lips and Acoustic Features-
dc.typeThesis-
dc.contributor.AlternativeAuthorLee Changheon-
dc.description.degreeMaster-
dc.citation.pages48-
dc.contributor.affiliation공과대학 전기·컴퓨터공학부-
dc.date.awarded2015-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share