Browse

시각 관계 학습을 위한 신경 모듈 구조 학습 : Learning Neural Module Structure for Visual Relationship Detection

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
전재현
Advisor
장병탁
Major
자연과학대학 협동과정뇌과학전공
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 자연과학대학 협동과정뇌과학전공, 2019. 2. 장병탁.
Abstract
Visual relationships in images build an important base for solving many vision tasks, such as image captioning and visual question answering. The process of figuring out the relationships differs depending on the type of relationship. We choose appropriate information to infer the relation according to its type and model each module regarding these types. Here we explore an attention-based gradient method to detect visual relationships from data. We divided the types of relations into three types of 'spatial', 'action', and 'language'. We employ a general modular deep-neural architecture that combines the spatial module, feature module, and embedding module, and search an optimal modular architecture by differentiable architecture search. This makes it possible to derive the relationship by varying the degree of use of the sub-modules for each relationship. By doing this, different weighting is applied to the structure used for inference according to the input information, thereby effecting another procedure. This modular architecture search (MAS) method can find the module units automatically to learn the optimal module structure of sequential embedding toward depth. This approach allows researchers to design models that can detect visual relationships with less effort. We demonstrate the performance of the method on the Visual Relationship Detection (VRD) dataset, showing the searched architecture with graph figures. Experimental results show that the structure can be compared with other state of the art models.
이미지에서 시각 관계는 image captioning, visual question answering 같은 시각 문제들을 풀기위한 중요한 기반이 된다. 시각 관계는 종류마다 이해하는 방식이 다르기 때문에 종류마다 다른 절차를 통해 추론할 수 있어야 한다. 그러므로 관계의 종류에 따라서 다른 구조를 통해 학습하고 추론할 수 있다면 절차를 다르게 유도할 수 있다. Attention 기반의 gradient 방식을 사용해 데이터로부터 사용하는 구조를 다르게 하여 시각 관계를 검출하였다. 우리는 관계의 종류를 크게 spatial, action, language의 3가지로 나누었고 각각 spatial 모듈, feature 모듈, embedding 모듈을 결합해 범용 모듈식 깊은 신경망 구조를 사용하였다. 이렇게 함으로써 관계마다 하위 모듈의 사용정도를 다르게 하여 관계를 도출할 수 있게 된다. 이렇게 함으로써 입력정보에 따라 추론에 사용하는 구조에 가중치를 다르게 줌으로써 다른 절차를 밟는 효과를 준다. 우리는 자동으로 모듈 구조를 학습할 수 있는 Module Architecture Search (MAS) 방식을 제안한다. 이 방식은 한 장의 이미지를 주어지고 이미지 안에 있는 모든 관계를 추론할 수 있도록 만든, Visual Relationship Detection dataset으로 학습하고 평가한다. 이 모델은 설계자가 적은 노력으로 시각 관계를 탐지할 수 있는 최적의 모델을 설계할 수 있도록 해준다. 실험 결과를 통해 자동으로 탐색된 구조를 통해 다른 state of the art 모델과 견줄만한 결과를 얻을 수 있었다.
Language
kor
URI
https://hdl.handle.net/10371/151629
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Program in Brain Science (협동과정-뇌과학전공)Theses (Master's Degree_협동과정-뇌과학전공)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse