Publications

Detailed Information

Zero-Shot Learning for Transfer of a Throwing Task via Domain Randomization : 도메인 랜덤화 기법을 이용한 던지기 행동 전이

DC Field Value Language
dc.contributor.advisor김현진-
dc.contributor.author박성용-
dc.date.accessioned2021-11-30T02:07:11Z-
dc.date.available2021-11-30T02:07:11Z-
dc.date.issued2021-02-
dc.identifier.other000000164068-
dc.identifier.urihttps://hdl.handle.net/10371/175176-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000164068ko_KR
dc.description학위논문 (석사) -- 서울대학교 대학원 : 공과대학 기계항공공학부, 2021. 2. 김현진.-
dc.description.abstractDeep reinforcement learning (DRL) on continuous robot control has received a wide range of interests over the last decade. Collecting data directly from real robots results in high sample complexities and can cause safety accidents, so simulators are widely used as efficient alternatives for real robots. Unfortunately, policies trained in the simulation cannot be directly transferred to real-world robots due to a mismatch between the simulation and the reality, which is referred to as 'reality gap'. To close this gap, domain randomization (DR) is commonly used. DR guarantees better transferability in the zero-shot setting, i.e. training agents in the source domain and testing them on the previously unseen target domain without fine-tuning. In this work, the positive influence of DR on zero-shot transfer in Sim2Sim setting with an object throwing task is presented.-
dc.description.abstract심층강화학습(DRL)을 연속 공간 상의 로봇 제어에 적용하는 문제는 지난 십수 년간 많은 관심을 받아 왔다. 실제의 로봇을 작동시켜 학습 데이터를 얻는 방식은 샘플 복잡도(sample complexity)를 높이고 안전 사고를 초래할 수 있어, 많은 경우에 로봇의 학습은 시뮬레이터로 효율적으로 대체되고 있다. 그러나, 시뮬레이션 상에서 학습된 정책(policy)은 보통 실제의 로봇의 운용에 바로 적용하기가 힘들다. 시뮬레이션의 근본적인 한계로 인해 불가피하게 생기는 시뮬레이션과 실세계 사이의 불일치 때문으로, 이 간극을 '리얼리티 갭'(reality gap) 또는 '심투리얼 갭'(Sim2Real gap)으로 부른다. 이 간극을 줄이는 방법으로 도메인 랜덤화(domain randomization) 기법이 주로 이용된다. 도메인 랜덤화 기법을 이용하여 강화학습 에이전트를 학습시키면 제로샷(zero-shot) 설정에서의 전이 능력(transferability)의 개선이 보장된다. 이는 즉 학습이 이루어지는 소스 도메인(source domain)의 범위에 포함되지 않는 환경을 타겟 도메인(target domain)으로 정하여 테스트를 진행하더라도, 추가적인 미세 조정(fine-tuning) 및 학습 없이 비교적 적정한 성능이 도출됨을 의미한다. 본 논문에서는 던지기 동작을 임무(task)로 하며, 도메인 랜덤화 기법을 학습에 이용하는 것이 서로 다른 파라미터 값을 가지는 시뮬레이션 간의 제로샷 전이에 어떤 영향을 미치는지 조사한다.-
dc.description.tableofcontents1 Introduction 1
1.1 Literature review 2
1.2 Thesis contribution 4
1.3 Thesis outline 4

2 Background 5
2.1 Reinforcement learning (RL) 5
2.2 Actor-critic structure 6
2.3 Deterministic policy 6

3 Deep Deterministic Policy Gradient (DDPG) 7
3.1 Policy update 8
3.2 Training techniques 8
3.2.1 Target networks 8
3.2.2 Replay buffer 9
3.2.3 OU noise 9

4 Domain Randomization (DR) 10
4.1 Objective function 11
4.2 Uniform Domain Randomization (UDR) 12

5 Experimental setup 13
5.1 Robot and task setup 13
5.2 State and action 14
5.3 Reward function shaping 15
5.4 Domain parameters 16
5.5 Policy training scheme 17
5.6 Policy evaluation scheme 18

6 Results 19
6.1 Learning curves 19
6.2 Performance on target domains 21
6.3 Performance to unmodeled effects 23
6.4 Goal-in rate 24

7 Conclusion 25
-
dc.format.extentvii, 37-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectRobot manipulation-
dc.subjectReinforcement learning-
dc.subjectZero-shot learning-
dc.subjectDomain randomization-
dc.subject로봇 매니퓰레이션-
dc.subject강화학습-
dc.subject제로샷 학습-
dc.subject도메인 랜덤화-
dc.subject.ddc621-
dc.titleZero-Shot Learning for Transfer of a Throwing Task via Domain Randomization-
dc.title.alternative도메인 랜덤화 기법을 이용한 던지기 행동 전이-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorPARK Sung Yong-
dc.contributor.department공과대학 기계항공공학부-
dc.description.degreeMaster-
dc.date.awarded2021-02-
dc.identifier.uciI804:11032-000000164068-
dc.identifier.holdings000000000044▲000000000050▲000000164068▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share