Publications

Detailed Information

손 이미지 합성을 활용한 딥 러닝 기반의 가려진 객체 인식 : Occluded object detection using deep learning by image synthesis with hands

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

강신우

Advisor
이혁재
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
물체 인식스마트 냉장고손 가려짐냉장고 재고 관리합성 이미지object detectionhand occlusionself-service standsinventory management of smart refrigeratorssynthetic images
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2021. 2. 이혁재.
Abstract
최근 딥 러닝을 이용한 물체 인식을 통한 다양한 응용 시스템 개발이 활발하다. 본 연구에서는 스마트 냉장고 재고 관리를 목적으로 하여, 냉장고 내외부로 이동하는 손 안의 상품 인식률을 증가시키기 위한 효율적인 학습데이터 생성 방법을 제안한다. 냉장고 내부의 고정된 카메라 관점에서 손에 의해 옮겨지는 상품을 인식할 때, 몇 가지 어려움이 있다. 이동하는 위치에 따른 상품의 크기, 모양 등의 다양성이 생기며, 상품이 항상 손에 잡혀져 있기 때문에 가려짐(Occlusion)이 발생한다. 냉장고 내부와 외부 환경이 다르기 때문에 배경의 다양성 문제도 생긴다. 이러한 모든 경우를 고려하여 수작업으로 학습데이터를 생성하는 것은 너무 많은 시간과 노동력이 소모된다. 하지만, 배경이 제거된 손 이미지를 물체와 합성한 후, 다양한 배경을 입혀서 상품에 대한 라벨링 데이터를 자동으로 생성한다면, 많은 시간과 노동력 소모 없이도 위의 문제를 해결할 수 있다. 수작업으로 라벨링을 한 소량의 학습데이터의 경우, 52.03%의 mean Average Precision(mAP)를 보인다. 우리가 제안하는 방법을 사용하여 학습데이터를 생성한 후, 수작업으로 라벨링한 소량의 학습데이터와 합쳐서 학습한 결과, 수작업으로 라벨링하는 노동 없이도 87.29%의 mAP를 달성할 수 있었다. 또한, 손 이미지 없이 합성한 경우와 비교했을 때, 5.47%의 성능 향상을 보여주었으며, Z. Zhong et al이 제안한 random erasing 기법과 비교하여 7.21%의 성능 증가를 보여주었다[22].
Recently, various application systems have been developed for object detection based on depp learning. For the purpose of inventory management of smart refrigerators, this paper proposes an efficient method for generating training datasets that improves detection rate of products held by the hand when being placed in or removed from a refrigerator. In this case, there are several issues for detecting a product. The size and appearance of the target product change as the position of the product. Occlusion problems occur since products are partially covered by the hand. The difference between the interior and exterior backgrounds of the refrigerator makes it difficult to recognize objects. Considering above problems, generating the datasets manually requires significant time and effort. To solve this problem, we create synthetic images and labels by merging images of objects, images of hands, and various backgrounds. The detector learned with a few manually labeled dataset gives 52.03% mAP. When adding the dataset of synthetic images with hands to a few manually labeled dataset, the detector obtains improved mAP of 87.29% without the labor of manual labeling. We achieved a higher performance by 5.47% compared to image synthesis without hands, and by 7.21% compared to Z. Zhong et als random erasing technique.
Language
kor
URI
https://hdl.handle.net/10371/175310

https://dcollection.snu.ac.kr/common/orgView/000000165979
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share