Publications

Detailed Information

비디오 스토리 질의응답을 위한 주의 깊은 시각-언어 스토리 표현 학습 : Attentive Visual-Linguistic Story Representation Learning for Video Story Question Answering

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김경민

Advisor
장병탁
Major
공과대학 전기·컴퓨터공학부
Issue Date
2018-08
Publisher
서울대학교 대학원
Description
학위논문 (박사)-- 서울대학교 대학원 : 공과대학 전기·컴퓨터공학부, 2018. 8. 장병탁.
Abstract
비디오 컨텐츠에 대한 질의응답은 실세계 환경의 시각과 언어를 모두 다루고 있기 때문에 인간 수준 지능을 얻기 위해 매우 중요한 문제이다. 또한, 비디오 스토리 질의응답은 화면 프레임과 자막이 중복적이고, 매우 복잡하며 때로 모호한 정보를 갖고 있기 때문에 이로부터 의미있는 정보를 추출해야만 한다. 본 논문에서는 다양한 멀티모달 표현 방법과 주의집중 기작을 활용하여 비디오 스토리 질의응답을 수행하는 인공지능 에이전트의 가능성을 보여주고자 한다.

멀티모달 표현을 위해 1) 화면 설명문을 사용하여 비디오의 화면-자막을 문장으로 표현하는 방법, 2) 비디오-글 번역 기법을 사용하여 비디오의 화면을 문장으로 표현하는 방법, 3) 자가 주의집중 기작을 사용하여 비디오의 화면-자막을 전체 스토리 맥락이 포함된 분산표현으로 나타내는 방법을 제안한다. 그리고 주의집중 기작으로는 1) 하나의 특정 문장에 집중하는 선별적 주의집중, 2) 다수의 문장에 집중하는 분산 주의집중, 3) 멀티모달 입력에 별도로 집중하는 분리된 주의집중 기작을 제안한다.

심층 임베딩 메모리 네트워크 (Deep Embedded Memory Networks, DEMN)는 관측 데이터의 은닉 임베딩 공간을 활용하여 비디오의 화면-자막 스트림으로부터 스토리를 재구성한다. 비디오 스토리는 RAM과 같은 메모리에 저장된다. 질의가 주어지면, LSTM 기반 주의집중 모델이 기억장치로부터 중요한 정보를 포함하는 특정 단어에 집중하여 가장 적합한 질의-스토리-정답 쌍을 선택한다. 실험결과는 DEMN이 다른 질의응답 모델보다 10% 이상 성능이 좋음을 보였다. 이는 1) 은닉 임베딩 공간을 활용하여 화면과 자막을 결합하여 스토리를 재구성하고, 2) 주의집중 기작을 활용했기 때문이다. 영화QA와 뽀로로QA에서 DEMN의 성능을 보고한다.

멀티모달 시퀀스 메모리 (Multimodal Sequence Memory Networks, MuSM)은 비디오-텍스트 변환을 위한 시퀀스-시퀀스 프레임워크를 사용하여 비디오의 시각 스토리를 텍스트 형식으로 변환한다. 그리고 MuSM은 시각 스토리와 자막의 언어 스토리를 이어붙인다. 비디오 스토리는 장기기억 컴포넌트에 저장된다. 질의가 주어지면, LSTM 기반 주의집중 모델이 장기기억을 사용하여 특정 스토리에 집중하여 비디오 스토리를 요약한다. 요약된 스토리는 다른 주의잡중 모델을 사용하여 후보 답 문장들과 비교된다. 두 개의 데이터 집합에 MuSM을 테스트했을 때, 실험결과는 영화QA에 대해서 다른 모델들보다 더 좋은 성능을 보여주었다.

멀티모달 이중 주의 메모리 (Multimodal Dual Attention Memory, MDAM)은 이중 주의 기작과 늦은 멀티모달 퓨전을 사용한다. MDAM은 화면 프레임과 자막의 은닉 개념을 학습하기 위해 자기 주의를 사용한다. 질의가 주어지면, MDAM은 은닉 개념들을 대상으로 또 다른 주의 기작을 사용한다. 늦은 멀티모달 퓨전은 이중 주의 기작 후에 이루어진다. 이 파이프라인을 사용해서 MDAM은 전체 비디오 컨텐츠로부터 고수준의 시각-언어 결합 표현을 추론하도록 학습한다. MDAM을 뽀로로QA와 영화 QA에 평가했다. 두 데이터 집합에 대해서 MDAM은 다른 모델에 비해서 월등한 성능을 보였다. 절제 실험을 통해서 이중 주의 집중 기작과 늦은 결합이 가장 좋은 성능을 보임을 입증했다. 또한, MDAM의 주의집중 기작을 시각화 함으로써 QA 결과를 분석을 하였다.

학습 데이터로, 두 개의 데이터 집합을 사용한다. 뽀로로QA는 만화 비디오 시리즈 뽀로로의 171개 에피소드로부터 구축된 새로운 비디오 QA 데이터 집합이다. 데이터 집합은 20.5 시간분량의 16,066개의 화면-자막 쌍, 세세하게 화면을 설명하는 27,328개의 문장들, 8,913개의 스토리 관련 질의응답 쌍을 포함한다. 영화QA는 다양한 장르의 140개 영화와 6,462개의 질의응답 쌍을 포함한다.

마지막으로, 본 논문은 제안하는 모델들을 휴머노이드 로봇 플랫폼에 구현함으로써 비디오 질의응답 에이전트의 실용적 어플리케이션들을 보여준다.
Language
English
URI
https://hdl.handle.net/10371/143400
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share