Publications

Detailed Information

Grounding Visio-Linguistic Information with Fast and Slow Neural Networks : 빠른 신경망과 느린 신경망을 통한 시각-언어 정보 표시

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

설한울

Advisor
장병탁
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Visual groundingmulti-modalReferring ExpressionContrastive Learning
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 협동과정 인지과학전공, 2023. 8. 장병탁.
Abstract
The remarkable progress witnessed in the field of Deep Learning has been spurred by the relentless pursuit of emulating the intricate cognitive abilities exhibited by the human brain. This relentless pursuit has led to extraordinary achievements across a myriad of domains, showcasing the exceptional prowess of AI systems. Although significant endeavors have been directed towards refin- ing uni-modal tasks such as natural language processing, computer vision, and speech recognition, it is imperative to acknowledge the fundamental role played by the fusion of multiple modalities in the intricate fabric of human cognition.
The Omnilabel benchmark Schulter et al. (2023) presents a unique and de- manding task that necessitates the localization of referenced objects based on textual descriptions. Unlike traditional approaches that rely on predefined and constrained label spaces, the Omnilabel benchmark embraces a vast array of object description variations, spanning from succinct category names to intri- cate and detailed textual depictions. Furthermore, a distinctive characteristic of this benchmark lies in its allowance for descriptions that can refer to zero, one, or multiple objects, thereby introducing the intricacy of handling negative pairs wherein the description fails to align with any specific object depicted in the given image. Most studies in the field have primarily focused on handling positive pairs of data, particularly in the context of referring expressions. Con- sequently, existing models face challenges when confronted with negative pairs in datasets.
Drawing inspiration from the cognitive framework of loss aversion Kahne- man and Tversky (1979), which posits that humans tend to weigh losses more heavily than equivalent gains. Loss aversion theory suggests that individuals are inclined to substitute a difficult question with an easier alternative. As a result, the human brain has evolved to operate using two distinct systems Kahneman (2011): Fast Thinking (System 1) and Slow Thinking (System 2).
Taking cues from biological inspiration, we propose the adoption of Fast Neural Network (FNN) as an analog to System 1 and Slow Neural Network (SNN) as an analog to System 2. FNN is trained to determine the positivity or negativity of input data. Following the classification of positive and neg- ative pairs, SNN selectively processes the filtered data obtained from FNN. Our approach demonstrates the efficacy and efficiency of SNN, as it leverages the filtered data without requiring additional training. This strategy proves to be faster and computationally more economical than employing SNN for the inference of the entire dataset.
딥 러닝 분야의 놀라운 발전은 인간의 뇌가 보여주는 복잡한 인지 능력을 모방하 려는 노력에 의해 촉진되었다. 그 결과로, AI 시스템의 탁월한 성능을 보여주면서 수많은 영역에서 놀라운 성과를 거두었다. 특히 자연어 처리, 컴퓨터 비전 및 음성 인식과 같은 단일 모달 분야에서 많은 발전이 이루어졌으나, 인간 인식은 복잡한 구조에서 다중 양태의 융합에 의해 수행되고 있다는 근본적인 차이점이 있다. 그 럼에도 단일 모달에서의 발전에 힘입어 여러 모달을 다루는 연구도 많은 관심을 받아 발전을 거듭하고 있다.
멀티-모달을 다루는 문제 중에서, Omnilabel 벤치마크 Schulter et al. (2023) 는 텍스트 설명을 기반으로 지칭된 물체의 위치를 찾는 문제를 제시한다. 사전에 정의되고 제한된 레이블의 공간에 의존하는 기존의 접근 방식과 달리, Omnilabel 벤치마크는 물체의 이름과 같은 간결한 단어 형태부터 복잡하고 상세한 자연어 설명에 이르기 까지 광범위한 객체 설명을 포함하고 있다. 또한 이 벤치마크의 특징은 하나의 물체에 대한 설명문이 0개 에서부터 여러 개의 객체를 지칭할 수 있다는 것이다. 따라서 설명문은 주어진 이미지에 존재하는 물체를 지칭하지 않고 있을 수도 있다. 인공지능 모델은 이러한 불일치 쌍에는 물체가 없음을 인지하여야 하며 일치하는 쌍에는 문장이 지칭하는 물체의 위치를 표시하여야 한다. 이 분야의 연구는 주로 기존 연구인 지칭표현에서 수행되었고, 일치 데이터 쌍을 입력으로 한다는 전제하에 수행되어왔다. 그러므로 기존 모델은 데이터셋에서 불일치 쌍을 입력받을 때 그동안 학습하지 않았던 문제에 직면하게 된다.
본 연구는 인간이 동등한 이득보다 손실을 더 무겁게 따지는 경향이 있다고 가정하는 손실 혐오 Kahneman and Tversky (1979)의 인지 과정에 기반하였다. 손실 혐오 이론은 개인이 어려운 질문을 더 쉬운 질문으로 대체하려하는 경향이 있다는 것을 나타낸다. 결과적으로, 인간의 뇌는 입력받은 데이터를 두 가지 시스템을 사용하여 작동하도록 진화하였다 Kahneman (2011). 두 가지 시스템은 각각 빠른 생각(시스템 1)과 느린 생각(시스템 2)으로 불리며 빠른 생각은 직관적이고 자주 등장하는 문제를 처리하고, 느린 생각은 논리적이며 깊은 사고를 필요하는 문제를 처리할 때 사용된다.
우리는 이러한 생물학적인 기전에서 영감을 받아 시스템 1에 대응하는 Fast neural network(FNN)과 시스템 2에 해당하는 느린 신경망(SNN)을 제안하였다. FNN은 입력 데이터의 일치 혹은 불일치 여부에 따라 데이터를 분류하도록 학습된 다. SNN은 FNN에서 일치 데이터 쌍으로 분류된 데이터만을 입력으로 받아 해당 쌍의 이미지에서 텍스트가 지칭하는 물체의 위치를 출력한다. 이러한 방식은 계산 적으로 복잡한 SNN이 추가적인 학습 없이도 필터링된 데이터를 활용할수 있도록 하기 때문에 효과적이며 효율적인 결과를 보여준다. 이러한 방식을 통해 SNN만을 활용하여 데이터 셋 전체를 추론하는 기존의 방식보다 더 빠르고 좋은 성능을 낼 수 있음을 보였다.
Language
eng
URI
https://hdl.handle.net/10371/197254

https://dcollection.snu.ac.kr/common/orgView/000000179032
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share