음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현

이창헌

서울대학교 중앙도서관

S-Space 소개

My S-Space

로그인이 필요합니다.

S-Space

Publications

Detailed Information

음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현 : Noise Robust Large Vocabulary Continuous Speech Recognition using Lips and Acoustic Features

DC Field	Value	Language
dc.contributor.advisor	성원용	-
dc.contributor.author	이창헌	-
dc.date.accessioned	2017-07-14T02:58:37Z	-
dc.date.available	2017-07-14T02:58:37Z	-
dc.date.issued	2015-02	-
dc.identifier.other	000000024855	-
dc.identifier.uri	https://hdl.handle.net/10371/123121	-
dc.description	학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2015. 2. 성원용.	-
dc.description.abstract	본 논문에서는 잡음에 강한 음성인식기 구현을 목적으로 음성과 입술영상 정보를 함께 사용한다. 기존의 EI (early integration) 과 LI (late integration)에서 각각의 장점을 살려 새로운 구조의 음향·영상 음성인식기를 제안한다. 사용되는 음향특징은 39차 MFCC (mel frequency cepstral coefficient)를 사용한다. 영상특징은 FLE (face landmark estimation)을 사용하여 입술의 위치를 추정해 입술 영상을 획득하여 추출의 전처리 과정을 거친다. 이후 영상은 블록 이산 코사인 변환 (block discrete cosine transform)과 주성분 분석 (principal component analysis)을 이용해 특징벡터를 생성한다. 음향·영상모델은 깊은 신경망 (deep neural network)을 사용하여 인식을 수행한다. 음향·영상모델의 훈련을 위한 시간별 음소의 배치 정보는 훈련된 가우시안 혼합 모델을 이용해 구해진다. 음향모델은 트라이폰 (triphone) 단위로 인식되며, 영상은 음소를 입술인식에 맞도록 그룹화한 viseme 단위로 인식된다. 415×3개의 트라이폰 상태 (state)가 사용되고, viseme은 14개의 그룹으로 구성된다. 통합단에서 두 부분의 확률은 가중치의 합으로 통합된다. 통합된 확률은 트라이폰 상태의 방사확률 (emission probability)을 의미하며 그 값을 비터비 (Viterbi)탐색에 이용한다. 실험의 기준치 (baseline)는 무소음 환경에서 훈련한 경우에서 음성만 사용한 경우로 지정했다. 최종적으로 잡음 환경에서 훈련한 경우에 영상을 함께 인식한 경우가 가장 높은 인식률을 보였고, 기준치 대비 34.92%의 인식률 향상을 할 수 있었다.	-
dc.description.tableofcontents	목 차 제 1 장 서론 1 제 1 절 연구의 배경 1 제 2 절 관련 연구 및 연구 내용 2 제 2 장 음향·영상 모델의 구조 및 특성 4 제 1 절 음향특징과 영상특징 추출 5 제 2 절 깊은 신경망의 특성과 훈련 14 제 3 절 GMM-HMM과 DNN-HMM 특성 18 제 3 장 음향·영상 음성인식기 구현 20 제 1 절 음향·영상 음성인식기의 구조적 특성 21 제 2 절 깊은 신경망을 이용한 음향·영상 훈련 23 제 3 절 음향모델과 영상모델의 통합 30 제 4 장 실험결과 33 제 1 절 실험환경 33 제 2 절 음소인식 및 viseme 인식률 분석 34 제 3 절 잡음에 따른 인식률 분석 37 제 4 절 영상과 음성을 사용한 인식률 상승결과 41 제 5 장 결론 43 참고문헌 44 Abstract 47	-
dc.format	application/pdf	-
dc.format.extent	1213404 bytes	-
dc.format.medium	application/pdf	-
dc.language.iso	ko	-
dc.publisher	서울대학교 대학원	-
dc.subject	음성인식기	-
dc.subject.ddc	621	-
dc.title	음향과 입술영상을 이용한 잡음에 강한 음성인식기 구현	-
dc.title.alternative	Noise Robust Large Vocabulary Continuous Speech Recognition using Lips and Acoustic Features	-
dc.type	Thesis	-
dc.contributor.AlternativeAuthor	Lee Changheon	-
dc.description.degree	Master	-
dc.citation.pages	48	-
dc.contributor.affiliation	공과대학 전기·컴퓨터공학부	-
dc.date.awarded	2015-02	-

Appears in Collections:

College of Engineering/Engineering Practice School (공과대학/대학원)
- Dept. of Electrical and Computer Engineering (전기·정보공학부)
  - Theses (Master's Degree_전기·정보공학부)

Files in This Item:

000000024855.pdf 1.16 MB

Altmetrics

Item View & Download Count

Show Simple Item Record

Find it @ SNU

트윗하기

SNS Share