Publications

Detailed Information

동적으로 클래스 변경이 가능한 개인화된 퓨-샷 객체 검출 : Personalized Few-shot Object Detector with Dynamic Class Change

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이성우

Advisor
서봉원
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :융합과학기술대학원 디지털정보융합학과,2020. 2. 서봉원.
Abstract
As artificial intelligence services are diversified, there is a demand for a personalized object detection service that can be applied to an unmanned store, smart logistics management, and a smartphone camera application. However, classic object detection models have limitations that they have to proceed all the way from changing architecture to training parameters when adding a novel class. Since non-expert users have a great deal of difficulty in carrying out these complicated procedures, to solve the above problems, a personalized object detection model is needed that makes user easily add novel classes at the front-end.
In this paper, we developed a personalized object detector model that guarantees reasonable performance in various domains and analyzed how the model works for changes in datasets or changes in the architecture of the model. To do this, we first defined three requirements that a personalized object detector should satisfy: 1) "few-shot", 2) "dynamic class change", and 3) "cross-domain availability" then the object detection method that only inputs CAM (Class Activation Map) meet the requirements and CAM is made using the Imagenet dataset trained CNN model biased towards texture property. In addition, the detector model is designed to allow the addition of novel classes freely by the Self-Attention mechanism.
The CAM object detector trained on the PASCAL VOC 2012 dataset showed a performance of about 0.46(mAP) on 5shot-10way task and 0.45(mAP) on 5shot-21way task at the cosmetic product test dataset collected by myself. In the case of training on the same cosmetic product training dataset, the performance was about 0.72(mAP) on 10shot-10way task. In addition, the model works well without fine-tuning on cross-domain datasets such as flowers, convenience store products and fruits collected from the web.
Contributions of this paper are as follows. 1) We created CAM using Imagenet dataset trained CNN model biased towards texture property and showed that we can solve classification and localization tasks with only CAM as inputs. 2) Using CAM and Self-Attention, we proposed the structure of a universally available object detector model regardless of the number of classes in the cross-domain dataset. 3) The CAM detector shows reasonable performance without additional training on new images when adding a novel class. 4) Through quantitative experiments, it was shown that how the CAM detector changes according to the structure of the model and the number of CAM channels.
인공지능 서비스가 다양화 되면서 객체 검출(Object detection) 분야에서도 무인 점포나 스마트 물류관리, 스마트폰 카메라 어플리케이션 등에 적용할 수 있는 개인화된 객체 검출 서비스가 요구되고 있다. 그러나 기존의 객체 검출 모델들은 새로운 클래스를 추가/변경 할 때 모델의 구조 변경부터 학습까지 모두 다시 진행해야만 하는 한계가 있다. 비전문가 사용자들은 이러한 복잡한 절차를 수행하는데 있어 상당한 어려움을 겪기 때문에 위와 같은 문제를 해결하기 위해서는 서비스 레벨에서 사용자가 손쉽게 클래스를 추가/변경할 수 있는 개인화된 객체 검출 모델이 필요하다.
본 논문에선 실제 여러 도메인에서의 합리적인 성능을 보장하는 개인화된 객체 검출기 모델을 개발하고 데이터셋의 변화나 모델의 구조 변경 등에 대해 어떻게 모델이 작동하는지 분석했다. 이를 위해 먼저 개인화된 객체 검출기가 만족해야하는 요구 조건 1) 퓨-샷, 2) 동적 클래스 변경, 3) 크로스 도메인 적용 세 가지를 정의하고 이미지넷 분류 데이터의 텍스처 편향성질을 이용해 CAM(Class Activation Map)을 만들어 오로지 CAM만을 입력으로 사용하는 객체 검출 방법으로 요구조건들을 만족시켰다. 뿐만 아니라 검출기 모델은 Self-Attention을 이용해 자유롭게 새로운 클래스의 추가/변경이 가능하도록 설계했다.
PASCAL VOC 2012 데이터셋에 훈련시킨 개인화된 퓨-샷 객체 검출기는 자체적으로 수집한 화장품 평가 데이터셋에서 5샷(Shot)-10웨이(Way) 0.46mAP, 5샷-21웨이 0.45mAP정도의 성능을 보여주었고 화장품 훈련 데이터셋에 학습한 경우는 10샷-10웨이 기준 약 0.72mAP의 성능을 보여주었다. 더불어 크로스 도메인에서 모델이 잘 작동하는지 확인하기 위해 웹에서 수집한 꽃, 편의점 상품, 과일 등의 데이터셋에 대해서도 추가적인 학습 없이 모델이 잘 작동함을 보였다.
본 연구의 기여부분은 다음과 같다. 1) 이미지넷 데이터 학습 모델이 텍스처에 편향된 성질을 이용해 CAM을 만들었고 이것을 이용해 Classification과 Localization문제를 해결할 수 있음을 보였다. 2) CAM과 Self-Attention을 이용해 크로스 도메인에서 클래스의 개수에 관계없이 보편적으로 사용 가능한 검출기 모델의 구조를 제시했다. 3) CAM 검출기는 새로운 클래스의 추가/변경 시 새로운 데이터에 대해 추가적인 학습 없이도 합리적인 성능을 보여준다. 4) 정량적인 실험을 통해 CAM 검출기가 모델의 구조나 CAM 채널 개수에 따라 어떠한 변화가 있는지 보였다.
Language
kor
URI
http://dcollection.snu.ac.kr/common/orgView/000000160147
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share