Publications

Detailed Information

Transitional Adaptation of Pretrained Models for Visual Storytelling : 시각적 스토리텔링을 위한 사전 훈련된 언어 모델의 전이 적용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정지완

Advisor
김건희
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
artificial intelligencemultomodal learningvisual storytelling
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 컴퓨터공학부, 2023. 2. 김건희.
Abstract
Previous models for vision-to-language generation tasks usually pretrain a visual encoder and a language generator in the respective domains and jointly finetune them with the target task. However, this direct transfer practice may suffer from the discord between visual specificity and language fluency since they are often separately trained from large corpora of visual and text data with no common ground. In this work, we claim that a transitional adaptation task is required between pretraining and finetuning to harmonize the visual encoder and the language model for challenging downstream target tasks like visual storytelling. We propose a novel approach named Transitional Adaptation of Pretrained Model (TAPM) that adapts the multi-modal modules to each other with a simpler alignment task between visual inputs only with no need for text labels. Through extensive experiments, we show that the adaptation step significantly improves the performance of multiple language models for sequential video and image captioning tasks. We achieve new state-of-the-art performance on both language metrics and human evaluation in the multi-sentence description task of LSMDC 2019 and the image storytelling task of VIST. Our experiments reveal that this improvement in caption quality does not depend on the specific choice of language models.
시각-언어 생성 문제를 풀 때, 기존 모델들은 일반적으로 시각 인코더와 언어 생성
기를 각 영역에서 선학습한 후 목표 문제에 미세조정한다. 그러나 이러한 직접적
이전 방식은 시각적 특정성과 언어적 유창성 간의 부조화를 낳을 수 있는데, 이는
시각과 언어 모델 각각이 공통되는 영역이 없는 대량의 시각과 언어 데이터에서
서로 별도로 학습되기 때문이다. 본 연구에서는 선학습과 미세조정 사이에 전이
적용 문제를 학습할 때 보다 어려운 목표 문제인 시각적 스토리텔링 문제에서 시각
인코더와 언어 모델을 조화시킬 수 있음을 밝힌다. 그 방법으로 제시한 TAPM은
언어 라벨 없이 시각적 입력값 간의 연결성 만을 파악하는 간단한 문제를 사용함
으로서 멀티모달 모듈 간의 연결성을 확보한다. 연구결과를 종합해 볼 때, 제시된
적용 단계는 순차적 비디오 또는 이미지 캡셔닝 문제에서 다수 언어 모델의 성능
을 크게 향상시켰다. 그 결과, 복수 문장 설명 문제인 LSMDC 2019와 이미지
스토리텔링 문제인 VIST에서 자동 성능과 인적 평가 모두 최고 성능을 달성
했다. 또한 추가적 실험으로 캡션의 질적 성능 향상이 특정 언어 모델에 국한되지
않는다는 점을 보였다.
Language
eng
URI
https://hdl.handle.net/10371/193356

https://dcollection.snu.ac.kr/common/orgView/000000174585
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share