Publications
Detailed Information
Mounting Visual Metadata on Transformer-based Language Model for Open-ended Video Question Answering : 비디오 메타데이터를 활용한 트랜스포머 기반 주관식 비디오 질의 응답
Cited 0 time in
Web of Science
Cited 0 time in Scopus
- Authors
- Advisor
- 장병탁
- Issue Date
- 2023
- Publisher
- 서울대학교 대학원
- Keywords
- Video ; VQA ; open-ended ; transformer ; visual metadata ; Language Model
- Description
- 학위논문(석사) -- 서울대학교대학원 : 인문대학 협동과정 인지과학전공, 2023. 8. 장병탁.
- Abstract
- 비디오 질의응답은 최근 멀티 모달 비디오 연구자들로부터 많은 관심을 받고 있다. 대부분의 비디오 질의응답 데이터셋은 객관식 질의응답의 형식으로 제공되고 있다. 그러나 객관식 질의응답 태스크는 답을 추론하지 않고, 답안 후보군들을 비교해서 더 나은 선택지를 찾는 방식을 택한다. 이러한 방식은 선택지에 제한되어 비디오와 질문 간의 상세한 상호작용을 파악하기 어렵다. 그에 반해 주관식의 경우 자유로운 답변 생성을 통해 모델이 비디오와 질문 사이의 복잡한 관계를 이해하기에 용이하다. 뿐만 아니라 실용적인 측면에서 인간과의 상호작용을 위해서는 답안 후보군을 제공하는 방식보다 주관식으로의 상호작용이 더 용이하다. 본 논문에서는 기존의 객관식 질의응답 문제를 주관식 질의응답으로 바꿔서 앞서 말한 문제들을 해결하고자 한다. 주관식 질의 응답 문제를 해결하기 위해 미리 학습된 GPT2 model 을 활용한다. 비디오의 내용을 이해하기 위해서는 등장인물, 사건에 대한 정보들이 필요하다. 이를 위해 비디오 입력, 자막, 메타데이터, 디스크립션 등의 정보를 활용해 파인 튜닝한다. 본 연구에서는 기존의 DramaQA 데이터셋을 주관식 질의응답이 가능한 형태로 변형해 수행되었다. 비디오 메타데이터, 디스크립션을 활용해 주관식 질의응답 문제에 높은 성능을 보였다.
Video question answering has recently received a lot of attention from multimodal video researchers. Most video question answering datasets are usually in the form of multiple-choice. But, the model for the multiple-choice task does not infer the answer. Rather it compares the answer candidates for picking the correct answer. This method is limited in options, making it difficult to grasp detailed interactions between videos and questions. On the other hand, in the case of open-ended answer, it is easy for the model to understand the complex relationship between the video and the question through free answer generation. In addition, from a practical point of view, for interaction with humans, subjective interaction is easier than the method of providing answer candidates. In this paper, we challenge
the existing multiple-choice video question answering by changing it to open-ended video question answering. To tackle open-ended question answering, we use the pretrained GPT2 model. In order to understand the contents of the video, information about the characters and events is needed. To utilize the aforementioned information, fine-tuning is performed using information such as video input, subtitles, metadata, and description. This study is performed by changing the existing DramaQA dataset to an open-ended question answering, and it shows that performance can be improved using video metadata.
- Language
- eng
- Files in This Item:
Item View & Download Count
Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.