Browse

딥 하이퍼네트워크를 이용한 TV드라마의 멀티모달 학습
Multimodal Learning from TV Drama using Deep Hypernetworks

DC Field Value Language
dc.contributor.advisor장병탁-
dc.contributor.author남장군-
dc.date.accessioned2017-07-14T02:36:08Z-
dc.date.available2017-07-14T02:36:08Z-
dc.date.issued2017-02-
dc.identifier.other000000140750-
dc.identifier.urihttp://hdl.handle.net/10371/122684-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2017. 2. 장병탁.-
dc.description.abstract최근 인터넷기술의 발전과 딥 러닝 연구의 활성화를 통해 인공지능 연구에 관련된 데이터가 급격히 증가하고 있다. ImageNet, WordNet과 같은 정형화된 단일 모달리티 데이터는 물론, Flickr 8K, Flickr 30K, Microsoft COCO와 같은 대표적인 멀티모달 데이터들도 있다. 이러한 정적 데이터로부터 학습된 인공지능 기술은 이미지 검색, 시각-언어 번역 등 많은 분야에서 성공사례들을 보이고 있다. 하지만 실세계에서 더욱 다양한 문제를 다루기 위해서는 동적 멀티모달 데이터를 효율적으로 학습할 수 있는 인공지능 기술이 필요하다.
TV드라마는 인간 사회의 엄청난 지식을 포함하고 있는 대용량 데이터이다. 이러한 비디오 데이터는 자유로운 스토리 전개를 통해 인물들 간의 관계뿐만 아니라 경제, 정치, 문화 등 다양한 지식을 사람들에게 전달해주고 있다. 특히 다양한 장소에서 인간의 대화 습성과 행동 패턴은 사회관계를 분석하는데 있어서 아주 중요한 정보이다. 하지만 TV드라마의 멀티모달과 동적인 특성으로 인해 학습모델이 비디오로부터 자동으로 지식을 습득하기에는 아직 많은 어려움이 있다. 이러한 문제점들을 해결하려면 효과적인 동적 멀티모달 데이터 학습 기술과 다양한 영상처리 기술들이 필요하다.
본 논문에서는 TV드라마의 지식을 자동으로 학습하고 분석하는 딥 하이퍼네트워크(Deep hypernetworks) 기반 멀티모달 학습 방법론을 제안한다. 딥 하이퍼네트워크는 계층적 구조를 이용하여 다양한 단계의 추상화를 통해 데이터로부터 지식을 학습한다. 이러한 특징으로 인해 모델이 복잡한 멀티모달 학습을 효율적으로 진행할 수 있다. 기존의 고정된 신경망 모델의 구조와는 달리 딥 하이퍼네트워크의 구조는 유동적으로 변할 수 있어 동적인 정보를 다루기에 적합하다.
제안된 방법론을 통해 본 논문에서는 TV드라마를 분석하였다. 실험을 위해 183편 에피소드, 총 4400분 분량의 TV드라마 'Friends'를 사용했고 다양한 영상처리 기법을 통해 장소와 등장인물 등 시각 정보를 추출하였다. 본 논문에서는 딥 하이퍼네트워크 모델을 통해 자동으로 소셜 네트워크를 생성하여 TV드라마에서 출현하는 다양한 장면에서의 인물 관계 변화를 분석하였다. 이러한 소셜 네트워크 분석으로부터 제안된 방법이 멀티모달 학습을 할 수 있음을 알 수 있었다. 또한 스토리의 전개에 따른 인물관계 변화로부터 동적 멀티모달 데이터를 학습할 수 있었음을 확인하였다. 모델의 학습정도를 평가하기 위해 본 논문에서는 데이터로부터 학습된 지식을 활용하여 시각-언어 번역 실험을 진행하였다. 실험결과로부터 멀티모달 학습을 통해 추출된 지식이 시각-언어 번역 정확도에 기여하였음을 알 수가 있고 스토리의 축적에 따라 정확도가 높아졌음을 확인하였다.
-
dc.description.tableofcontentsI. 서 론 1
1. 연구 배경 및 목적 1
2. 논문 구성 4
II. 관련 연구 5
1. 딥 네트워크 기반 멀티모달 학습 연구 5
2. 멀티모달 데이터 분석 연구 7
2.1. 소셜 미디어의 정보 추출 7
2.2. 비디오 데이터의 소셜 정보 분석 8
3. 시각-언어 번역 연구 9
III. 딥 하이퍼네트워크 11
1. 하이퍼네트워크 11
1.1. 하이퍼네트워크 구조 11
1.2. 하이퍼네트워크 학습 14
2. 딥 하이퍼네트워크 15
2.1. 딥 하이퍼네트워크 구조 15
2.2. 딥 하이퍼네트워크 학습 18
IV. 데이터 전처리 23
1. TV드라마 시각 정보의 추출 23
1.1. 등장인물 인식 방법 23
1.2. 장소 분류 방법 26
2. 데이터 전처리 및 실험 설정 28
V. 결과 및 논의 30
1. 소셜 네트워크 분석 30
1.1. 인물 중심 네트워크 시각화 기법 30
1.2. 장소 기반 네트워크의 정량적 평가 34
2. 시각-언어 번역 38
VI. 결 론 42
참고문헌 43
영문요약 51
-
dc.formatapplication/pdf-
dc.format.extent3626526 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject딥 하이퍼네트워크-
dc.subject멀티모달 학습-
dc.subject소셜 네트워크 분석-
dc.subject시각-언어 번역-
dc.subject.ddc621-
dc.title딥 하이퍼네트워크를 이용한 TV드라마의 멀티모달 학습-
dc.title.alternativeMultimodal Learning from TV Drama using Deep Hypernetworks-
dc.typeThesis-
dc.contributor.AlternativeAuthorChang-Jun Nan-
dc.description.degreeMaster-
dc.citation.pagesvii, 52-
dc.contributor.affiliation공과대학 컴퓨터공학부-
dc.date.awarded2017-02-
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Computer Science and Engineering (컴퓨터공학부)Theses (Master's Degree_컴퓨터공학부)
Files in This Item:
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse