Browse

Deep Representation Learning for Visually-Grounded Dialog : 시각 기반 대화를 위한 심층 표상 학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
강기천
Advisor
장병탁
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :인문대학 협동과정 인지과학전공,2020. 2. 장병탁.
Abstract
Thanks to the recent advances in computer vision and natural language processing, there has been an extensive amount of effort towards developing an artificial intelligent (AI) system that jointly understands vision and natural language information. To bridge the gap between human-level understanding and the current AI system's performance, selectively utilizing visually-grounded information and capturing subtle nuances from human conversation became the key challenges. Visual dialog (das et al., 2017) is a machine learning task that requires an AI agent to answer a series of questions grounded in an image. Visual dialog dataset consists of large-scale image datasets and multi-round question-answer pairs (i.e., dialog) per image. For instance, the agent is to answer a series of semantically inter-dependent questions, such as ``How many people are in the image?", ``Are they indoors or outside?".

The present study aims to introduce the deep neural network-based learning algorithm for visual dialog task. Specifically, we will investigate the visual reference resolution problem based on our previous work (kang et al., 2019). The problem of visual reference resolution is to resolve ambiguous expressions on their own (e.g., it, they, any other) and ground the references to a given image. This problem is crucial that it involves the aforementioned two big challenges: (1) finding visual groundings of linguistic expressions, and (2) catching contextual information from a previous dialog. The previous studies also dealt with the visual reference resolution in visual dialog task by proposing attention memory (seo et al., 2017), and neural module networks (kottur et al., 2018). These approaches store all visual attentions of previous dialogs, assuming that the previous visual attentions are key information to the visual reference resolution. However, researches in human memory system show that the visual sensory-memory, due to its rapid decay property, hardly stores all previous visual attentions. Based on this biologically inspired motivation, we propose Dual Attention Networks (DAN) that does not rely on the visual attention maps of the previous dialogs. DAN consists of two kinds of attention network, REFER and FIND. REFER network learns latent relationships between a given question and a previous dialog. FIND network takes image representations and the output of REFER network as input, and performs visual grounding. By using the two attention mechanisms, we expect our dialog agent to mimic the behavior of a human in the scenario, where one receives an ambiguous question and then has to find an answer in the presented image by recalling previous questions and answers from ones memory.

As a result, DAN placed the 3rd place in the Visual Dialog Challenge 2019 as an ensemble model, and also achieves a new state-of-the-art performance in November 2019, at the time of publication.
최근 컴퓨터비전과 자연언어처리 분야의 발전 덕분에 시각과 자연언어 정보를 동시에 이해하는 인공지능 시스템 연구가 활발하게 이루어지고 있다. 인간 수준의 시각, 자연언어의 이해와 현재 인공지능 시스템의 성능 간의 격차를 줄이기 위하여 시각 기반 정보를 이용하는 것 그리고 인간 대화의 미묘한 뉘앙스를 이해하는 것은 중요한 문제가 되었다. 시각 대화 (das et al., 2017)는 인공지능 에이전트에게 이미지와 관련된 일련의 질문에 답변을 하도록 하는 기계학습 문제이다. 시각 대화 데이터셋은 방대한 양의 사진과 사진 당 여러 회의 질의응답 쌍을 포함하고 있다. 예를 들어, 에이전트는 ``사진에 몇 명의 사람이 있니?", ``그들은 실내에 있니 실외에 있니?"와 같은 의미적으로 상호의존적인 질문들에 답하여야 한다.

본 연구는 시각 대화 문제를 위한 심층 신경망 기반의 학습 알고리즘을 소개한다. 구체적으로, 기존 연구 (kang et al., 2019)를 기반으로 시각 대화 문제 내의 시각 참조 해결 문제를 다룬다. 시각 참조 해결 문제는 그것 자체로 모호한 언어적 표현들의 의미를 명확히하고, 그것들을 이미지의 국소적인 영역에 매핑시키는 문제를 일컫는다. 시각 참조 해결은 앞서 언급한 두 가지의 중요한 문제를 다룬다. 시각 참조 해결을 다루는 기존 연구는 주의 집중 기억 (seo et al., 2017), 신경 모듈망 (kottur et al., 2018) 등의 기법을 이용하여 시각 참조 해결 문제를 다루었다. 해당 기법들의 공통점은 이전에 나눈 대화들의 시각적 주의집중 정보들을 모두 저장하였다. 하지만 인간의 기억 구조 연구에 의하면, 시각 감각 기억은 빠르게 소멸되는 특징을 가지기 때문에 기존에 제안된 모델링은 인지과학적, 생물학적 근거가 부족하다. 이러한 동기에 근거하여 우리는 이전 대화의 시각적 주의집중에 의존하지 않는 이중 주의집중 신경망을 제안한다. 이중 주의집중 신경망은 참조 그리고 탐색 신경망으로 구성되어 있다. 참조 신경망은 주어진 질의와 이전 대화 내용 사이의 의미적 연관성을 학습한다. 참조 신경망은 참조 신경망의 출력과 사진의 표상을 입력으로 받아 시각 기반을 수행한다. 두 종류의 주의집중 메커니즘을 이용하여, 우리는 대화 에이전트가 의미적으로 모호한 질문을 받았을 때 해당 질문의 의미를 명확히하고 주어진 사진에서 답변을 찾길 기대한다.

그 결과 이중 주의집중 신경망은 2019년 시각 대화 대회에서 종합 3위를 기록하였고 단일 모델로는 출판 시점인 2019년 11월에 최고 수준의 성능을 기록하였다.
Language
eng
URI
http://dcollection.snu.ac.kr/common/orgView/000000158487
Files in This Item:
Appears in Collections:
College of Humanities (인문대학)Program in Cognitive Science (협동과정-인지과학전공)Theses (Master's Degree_협동과정-인지과학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse