Publications

Detailed Information

Exploring Unified Vision-Language Representation Space with One-tower CLIP : 단일 타워 CLIP을 이용해 통합된 시각 언어 표현 공간 탐색

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

장지호

Advisor
곽노준
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Vision-language PretrainingMulti-modalSelf-supervised LearningRepresentation Learning
Description
학위논문(석사) -- 서울대학교대학원 : 융합과학기술대학원 지능정보융합학과, 2023. 2. 곽노준.
Abstract
Contrastive learning is widely adopted in self-supervised representation learning (SSL) to learn common attributes from similar sample pairs. In this paper, we boldly hypothesize that an image and its caption can be simply regarded as two different views of an underlying semantic, and aim to build a unified vision-language representation space by inducing a one-tower transformer that can encode both type of data samples in a modality-agnostic manner. We show that applying typical SSL frameworks to vision-language pretraining (VLP) naively fails to train a generic one-tower model due to a severe modality gap, and propose One Representation (OneR) to mitigate the disparity. We explore emerging properties of OneR distinguished from prior works with modality-specific representation spaces such as zero-shot object localization, text-guided visual reasoning, and multi-modal retrieval, and analyze our novel multi-modal representation learning. Comprehensive evaluations demonstrate the potential of a modality-agnostic VLP framework that has unified representation space.
Contrastive learning은 자기지도학습(Self-supervised learning, SSL)에서 널리 채택되어 비슷한 데이터에서 공통된 특징을 추출하도록 하는 학습 방법론이다. 본 논문에서, 우리는 이미지와 이에 대응되는 설명문을 공통된 정보를 바탕으로 다르게 표현된 데이터로 가정하고, 단일 타워의 트랜스포머를 활용하여 이미지와 텍스트를 하나의 표현 공간으로 매핑하려고 한다. 기존의 자기지도학습 방법론들을 단순히 시각 언어 사전학습에 적용하는 것은 표현 양식의 차이로 인한 어려움이 존재하고, 이를 해결하기 위해 One Representation (OneR) 을 제안한다. OneR은 시각과 언어 각각에 특정한 표현공간을 가지는 이전의 연구들과 달리 흥미로운 특성들이 나타나며, 이를 zero-shot 시각화, 자연어기반의 시각적 이해 및 멀티모달 검색을 통해보인다.또한, 포괄적인 평가를 통해 통합된 표현 공간을 가지며, 표현 양식에 구애받지 않은 시각 언어 사전학습방법론의 잠재력을 보여주며 이에 대한 분석을 제공한다.
Language
eng
URI
https://hdl.handle.net/10371/194094

https://dcollection.snu.ac.kr/common/orgView/000000174945
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share