Publications

Detailed Information

Zero-Shot Learning for Transfer of a Throwing Task via Domain Randomization : 도메인 랜덤화 기법을 이용한 던지기 행동 전이

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박성용

Advisor
김현진
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Robot manipulationReinforcement learningZero-shot learningDomain randomization로봇 매니퓰레이션강화학습제로샷 학습도메인 랜덤화
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 기계항공공학부, 2021. 2. 김현진.
Abstract
Deep reinforcement learning (DRL) on continuous robot control has received a wide range of interests over the last decade. Collecting data directly from real robots results in high sample complexities and can cause safety accidents, so simulators are widely used as efficient alternatives for real robots. Unfortunately, policies trained in the simulation cannot be directly transferred to real-world robots due to a mismatch between the simulation and the reality, which is referred to as 'reality gap'. To close this gap, domain randomization (DR) is commonly used. DR guarantees better transferability in the zero-shot setting, i.e. training agents in the source domain and testing them on the previously unseen target domain without fine-tuning. In this work, the positive influence of DR on zero-shot transfer in Sim2Sim setting with an object throwing task is presented.
심층강화학습(DRL)을 연속 공간 상의 로봇 제어에 적용하는 문제는 지난 십수 년간 많은 관심을 받아 왔다. 실제의 로봇을 작동시켜 학습 데이터를 얻는 방식은 샘플 복잡도(sample complexity)를 높이고 안전 사고를 초래할 수 있어, 많은 경우에 로봇의 학습은 시뮬레이터로 효율적으로 대체되고 있다. 그러나, 시뮬레이션 상에서 학습된 정책(policy)은 보통 실제의 로봇의 운용에 바로 적용하기가 힘들다. 시뮬레이션의 근본적인 한계로 인해 불가피하게 생기는 시뮬레이션과 실세계 사이의 불일치 때문으로, 이 간극을 '리얼리티 갭'(reality gap) 또는 '심투리얼 갭'(Sim2Real gap)으로 부른다. 이 간극을 줄이는 방법으로 도메인 랜덤화(domain randomization) 기법이 주로 이용된다. 도메인 랜덤화 기법을 이용하여 강화학습 에이전트를 학습시키면 제로샷(zero-shot) 설정에서의 전이 능력(transferability)의 개선이 보장된다. 이는 즉 학습이 이루어지는 소스 도메인(source domain)의 범위에 포함되지 않는 환경을 타겟 도메인(target domain)으로 정하여 테스트를 진행하더라도, 추가적인 미세 조정(fine-tuning) 및 학습 없이 비교적 적정한 성능이 도출됨을 의미한다. 본 논문에서는 던지기 동작을 임무(task)로 하며, 도메인 랜덤화 기법을 학습에 이용하는 것이 서로 다른 파라미터 값을 가지는 시뮬레이션 간의 제로샷 전이에 어떤 영향을 미치는지 조사한다.
Language
eng
URI
https://hdl.handle.net/10371/175176

https://dcollection.snu.ac.kr/common/orgView/000000164068
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share