Publications

Detailed Information

복잡한 비디오 질의응답 문제를 위한 계층 구조의 멀티모달 인코더와 사전훈련 : Hierarchical Multi-modal Encoder and Pre-training for Long-term Dependencies and Reasoning in the Video Question Answering task

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

임형석

Advisor
장병탁
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
딥러닝비디오 질의응답멀티모달 학습사전훈련Deep learningVideoQAMulti-modal learningPre-training
Abstract
비디오 질의응답(Video Question Answering) 문제는 비디오의 시각 정보와 언어 정보를 이용하여 실환경에서의 다양한 관계를 효과적으로 이해할 수 있는 능력을 요구하는 과제로, 인간 수준의 통합된 지능을 가져야 할 인공지능 에이전트를 평가하기에 효과적인 과제이다.
하지만 지난 몇 년간의 비디오 질의응답 관련 연구는 짧은 길이의 비디오 클립에서 질의 응답으로 진행되었다. 짧은 길이의 비디오 뿐만 아니라 길고 복잡한 비디오의 질의응답을 위해서는 장기의존성 (long-term dependency)과 높은 수준의 추론 능력을 사용하여 해결해야한다.
따라서 본 연구에서는 복잡하고 긴 비디오 클립 내의 장기 의존성 문제를 해결하면서 어려운 질의응답 문제를 위한 추론 능력을 향상시키기 위해 계층적 구조를 가진 새로운 멀티모달(Multi-modal) transformer 구조와 대조 학습(Contrastive learning)을 이용한 새로운 pre-training task를 제안한다.
세 단계의 계층 구조로 이루어진 multi-modal transformer를 제안해 장기 의존성을 인코딩하고 비디오 장면에 대한 이해력을 향상시키며, 질문과 관련이 높은 비디오 표현을 사용하여 비디오의 전반적인 맥락을 학습하고 정답을 추론한다. 또한 Video-Subtitle Matching (VSM) task와 새롭게 제안한 Video-QA Matching (VQAM) task를 이용해 비디오의 표현 뿐만 아니라 복잡한 질문에 대해 정답을 고를 수 있도록 효과적으로 pre-training을 한다.
그 중 제안한 VQAM은 질의와의 어텐션 기법과 대조 학습을 활용하여 질의응답을 위한 추론 능력을 향상시킨다.
제안된 전체 프레임워크의 평가를 위해 네 가지 어려움 단계를 가진 한국 드라마 질의응답 데이터셋인 DramaQA 데이터셋을 이용하여 실험하여 그 결과 어려운 수준의 질의응답에서 좋은 결과를 보인 것을 확인하고, 본 모델을 통해 효과적인 비디오 표현을 학습할 수 있다는 것을 기존 모델들과의 비교와 ablation study를 통해 확인하였다.
Video Question Answering (VideoQA) task requires the ability to effectively understand various relationships in the real-world using visual and linguistic information of video. It is an effective task to evaluate the ability of AI agents to incorporate human-level intelligence.
However, the previous videoQA methods conducted in short-length video clips. Question-and-answer of long complex videos as well as short-length videos must be addressed using long-term dependency and high-level reasoning capabilities.
In this paper, we propose a novel multi-modal transformer with a hierarchical structure and pre-training task using contrastive learning to improve reasoning ability for difficult VideoQA problems while solving the long-term dependency problem within complex and long video clips.
Proposed multi-modal transformer with a three-level hierarchical structure to encode long-term dependencies improves the understanding of video scenes and to learn the context of the video and to infer the correct answer by using the video representation that is highly related to the query. In addition, the Video-Subtle Matching (VSM) task and the newly proposed Video-QA Matching (VQAM) task are used to effectively pre-train the correct answer to complex questions as well as to learn the representation of the video.
In particular, VQAM, newly proposed in this paper, significantly enhances reasoning ability for question-answering by using attention and contrast learning.
For the evaluation of our framework, we conduct experiments using the Korean DramaQA dataset with four difficulty levels and show the state-of-the-art performance compared to previous methods.
In addition, we demonstrate the effectiveness of each proposed module through an ablation study.
Language
kor
URI
https://hdl.handle.net/10371/178538

https://dcollection.snu.ac.kr/common/orgView/000000168368
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share