Browse

3D-CNN을 이용한 효율적인 손 제스처 인식 방법에 관한 연구
3D-Convolutional Neural Network for Efficient Hand Gesture Recognition

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
이진원
Advisor
이혁재
Major
공과대학 전기·컴퓨터공학부
Issue Date
2017-02
Publisher
서울대학교 대학원
Keywords
손 제스처 인식3D 컨볼루션 신경망차영상인셉션글로벌 평균 풀링
Description
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2017. 2. 이혁재.
Abstract
손 제스처 인식(Hand gesture recognition) 기술은 사람이 손을 이용하여 미리 정해진 동작을 했을 때, 그것이 어떤 동작인지를 인식하는 기술을 말한다. 이러한 인식 기술은 제스처의 특성상 직접적인 접촉을 필요로 하지 않기 때문에, 자동차나 모바일 혹은 웨어러블 기기, 가전제품 등에 있어서 효과적인 인터페이스를 제공해줄 수 있는 아주 중요한 기술 중 하나이다. 많은 컴퓨터 비전 알고리즘들이 제스처 인식을 위하여 연구되어 왔고, 그 성능 또한 계속 발전해왔다. 특히, 최근에는 인공신경망과 딥러닝 기술의 발전으로 인하여, 이러한 알고리즘들이 기존의 많은 연구들을 뛰어넘는 성과를 보이고 있다. 그러나 손 제스처 인식 기술은 영상 데이터의 처리의 특성상 높은 복잡도와 많은 연산량 그리고 많은 메모리 사용량을 요구하는 반면 많은 기기들의 제한된 연산능력으로 인하여 여전히 도전적인 분야이고, 더 효과적이고 효율적인 기술이 요구되는 분야이다.
본 논문에서는 연산량과 메모리 사용량을 줄일 수 있는 3차원 컨볼루션 신경망(3D convolutional neural network)을 이용한 새로운 구조의 인공신경망을 제안한다. 영상 데이터는 시간상의 연속된 움직임을 담고 있기 때문에 프레임 단위로 보았을 때 이웃한 프레임 간에는 움직임이 있는 부분을 제외하고는 큰 차이를 보이지 않는 것이 특징이다. 이를 이용하여 카메라를 통해 입력되는 RGB 영상의 프레임 간 차이를 이용한 차영상을 인공신경망의 입력으로 사용하는 방법을 제안한다. 또한, 이미지 분류에서 비교적 적은 수의 학습 변수(Weight parameter)를 이용하여 뛰어난 성능을 보였던 구조 중 하나인 인셉션(Inception) 구조를 영상 데이터 즉 3차원 데이터에 적용 가능하도록 확장하고 내부 필터를 작은 필터들의 결합으로 분해한 구조의 새로운 신경망을 제안한다. 마지막으로, 인공 신경망의 마지막 단에 전결합층(Fully-connected layer) 대신 3차원 글로벌 평균 풀링(3D global average pooling) 사용을 제안하여 학습 변수의 양을 줄이고, 제안된 신경망이 시간과 공간상의 변화에 잘 대응할 수 있도록 하였다.
제안된 인공 신경망 구조를 사용할 경우, 일반적인 구조의 3차원 컨볼루션 신경망을 사용하는 구조와 비교하였을 때, 인식률의 저하 없이 학습 변수를 저장하기 위해 필요한 메모리 사용량을 99% 이상 줄일 수 있다. 또한 연산에서 가장 많은 비용이 발생하는 곱셈 연산의 경우 역시 인식률의 저하 없이 일반 구조의 3D 컨볼루션 신경망 대비 약 95%의 연산량을 줄일 수 있다.
Language
Korean
URI
https://hdl.handle.net/10371/123214
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Electrical and Computer Engineering (전기·정보공학부)Theses (Master's Degree_전기·정보공학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse