Publications

Detailed Information

Detecting Parts of Speech from Image for Caption Generation : 영어 품사 정보를 활용한 이미지 캡션 생성 모델

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

강필구

Advisor
김형주
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2020. 2. 김형주.
Abstract
The capability to generate a description about the content of an image is becoming more important with the integration of smart devices and reliance on AI into our daily lives. In this paper, we propose a novel approach that utilizes multiple CNN models that have been specially trained to detect features related to the parts of speech (PoS) such as noun, verb, pronoun, adjective, preposition and conjunction. Using the PoS based CNN models, we extract features that the language model uses to generate high quality captions. We validate our finds by using Flickr8k, Flickr30k and MSCOCO dataset through multiple human surveys and several popular automatic text metrics.
스마트 기기와 일상 생활에서의 인공 지능에 대한 의존도가 증가해가면서, 이미지를 스스로 설명하는 기술의 중요성이 점점 더 증가하고 있다. 본 논문에서는 CNN 모델을 명사, 형용사, 전치사와 같은 영어 품사별로 나누어 학습하여 품사 별로 구분되는 특징을 학습하고, 학습된 결과를 활용하여 이미지를 설명할 수 있는 문장을 생성하는 방법을 제안한다. 품사 별로 학습된 CNN 모델에서는 품사별로 구별되는 시각적 특징 벡터들을 추출하고, 추출한 특징 벡터들을 합성하여 언어 모델에서 좋은 설명문을 생성하는데에 활용된다. 본 논문에서는 해당 분야에서 널리 사용되는 있는 Flickr8k, Flickr30k 그리고 MS-COCO 데이터 셋에 대한 실험을 통해 제안하는 모델의 우수성을 검증하였다. 또한, 사람들을 대상으로 한 설문 조사를 진행하여 제안한 모델에서 사람이 이해하기에 충분한 문장을 생성하는 것을 확인하였다.
Language
eng
URI
http://dcollection.snu.ac.kr/common/orgView/000000159883
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share