Publications

Detailed Information

Mounting Visual Metadata on Transformer-based Language Model for Open-ended Video Question Answering : 비디오 메타데이터를 활용한 트랜스포머 기반 주관식 비디오 질의 응답

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이동건

Advisor
장병탁
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
VideoVQAopen-endedtransformervisual metadataLanguage Model
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 협동과정 인지과학전공, 2023. 8. 장병탁.
Abstract
비디오 질의응답은 최근 멀티 모달 비디오 연구자들로부터 많은 관심을 받고 있다. 대부분의 비디오 질의응답 데이터셋은 객관식 질의응답의 형식으로 제공되고 있다. 그러나 객관식 질의응답 태스크는 답을 추론하지 않고, 답안 후보군들을 비교해서 더 나은 선택지를 찾는 방식을 택한다. 이러한 방식은 선택지에 제한되어 비디오와 질문 간의 상세한 상호작용을 파악하기 어렵다. 그에 반해 주관식의 경우 자유로운 답변 생성을 통해 모델이 비디오와 질문 사이의 복잡한 관계를 이해하기에 용이하다. 뿐만 아니라 실용적인 측면에서 인간과의 상호작용을 위해서는 답안 후보군을 제공하는 방식보다 주관식으로의 상호작용이 더 용이하다. 본 논문에서는 기존의 객관식 질의응답 문제를 주관식 질의응답으로 바꿔서 앞서 말한 문제들을 해결하고자 한다. 주관식 질의 응답 문제를 해결하기 위해 미리 학습된 GPT2 model 을 활용한다. 비디오의 내용을 이해하기 위해서는 등장인물, 사건에 대한 정보들이 필요하다. 이를 위해 비디오 입력, 자막, 메타데이터, 디스크립션 등의 정보를 활용해 파인 튜닝한다. 본 연구에서는 기존의 DramaQA 데이터셋을 주관식 질의응답이 가능한 형태로 변형해 수행되었다. 비디오 메타데이터, 디스크립션을 활용해 주관식 질의응답 문제에 높은 성능을 보였다.
Video question answering has recently received a lot of attention from multimodal video researchers. Most video question answering datasets are usually in the form of multiple-choice. But, the model for the multiple-choice task does not infer the answer. Rather it compares the answer candidates for picking the correct answer. This method is limited in options, making it difficult to grasp detailed interactions between videos and questions. On the other hand, in the case of open-ended answer, it is easy for the model to understand the complex relationship between the video and the question through free answer generation. In addition, from a practical point of view, for interaction with humans, subjective interaction is easier than the method of providing answer candidates. In this paper, we challenge
the existing multiple-choice video question answering by changing it to open-ended video question answering. To tackle open-ended question answering, we use the pretrained GPT2 model. In order to understand the contents of the video, information about the characters and events is needed. To utilize the aforementioned information, fine-tuning is performed using information such as video input, subtitles, metadata, and description. This study is performed by changing the existing DramaQA dataset to an open-ended question answering, and it shows that performance can be improved using video metadata.
Language
eng
URI
https://hdl.handle.net/10371/197256

https://dcollection.snu.ac.kr/common/orgView/000000177286
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share