Publications

Detailed Information

의미적으로 보강된 비지도 학습 기반의 이미지 캡셔닝 : Semantically Augmented Unsupervised Image Captioning

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김지훈

Advisor
이상구
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2020. 2. 이상구.
Abstract
이미지 캡셔닝(Image Captioning)이란 머신러닝 분야의 한 과제로, 이미지로 입력이 주어졌을 경우 이미지에 대한 묘사를 자연어의 형태로 생성해내는 과제이다.

이는 컴퓨터비전 분야의 전통적인 연구인 동시에 자연어처리라는 머신러닝 연구의 또 다른 갈래와 교차점을 이룬다는 점에서 중요한 의의를 갖고 있다. 해당 과제는 딥러닝 모델들의 발달에 따라 제한된 상황에선 인간 수준의 성능을 보이고 있다. 하지만 이미지와 캡션이 쌍을 이루지 않는 비지도 학습 상황에서의 이미지 캡셔닝은 매우 적은 연구가 진행되었고 그에 따라 성능상의 많은 한계점을 갖고 있다. 특히, 이미지와 전혀 무관한 캡션을 생성하는 심각한 현상이 기존 모델에서 자주 관측된다.

따라서 본 연구에서는 기존 비지도 학습 기반의 이미지 캡셔닝 모델을 바탕으로, 캡션 생성기의 학습을 담당하는 강화학습 부분의 보상이 반영되는 방식을 개선하여 이미지의 의미정보 손실을 최소화하는 모델을 제안한다. 기존 이미지 캡셔닝 평가방법을 기반으로 한 실험에서 , 본 연구는 최신의 비지도 학습 기반 모델에 준하는 성능을 보였으며 의미와 관련된 척도(metric)나 다양성 부분에서는 더 좋은 결과를 보임을 확인했다.
Image captioning is a task in the field of machine learning. When image input is given, it is a task to generate a description of an image in the form of natural language.

This has important significance in that it is a traditional research in the field of computer vision and at the same time crosses with another branch of the machine learning research of natural language processing. The task shows human-level performance in limited situations as deep learning models evolve. However, very little research has been conducted on image captioning in unsupervised learning situations where images and captions are not paired, and therefore have many performance limitations. Particularly, critical phenomena that produces captions that are completely independent of images are frequently observed in existing models.

Therefore, in this study, we propose a model that minimizes the loss of semantic information of images by improving the method of reflecting the reward of the reinforcement learning that is responsible for learning the caption generator based on the existing unsupervised learning-based image capturing model. In the experiments based on the existing image captioning evaluation method, this study shows better results in terms of metric related to the semantic and diversity than the state-of-the-art unsupervised model.
Language
kor
URI
http://dcollection.snu.ac.kr/common/orgView/000000159379
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share