Publications

Detailed Information

Data-Efficient Learning for Robot Manipulators using Residual Dynamics : 동역학 모델을 이용한 데이터 효율적 로봇 머니퓰레이터 학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김병헌

Advisor
박종우
Major
공과대학 기계항공공학부
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 기계항공공학부, 2019. 2. 박종우.
Abstract
모델 기반의 강화학습은 데이터 효율성에 있어서 큰 각광을 받아 왔고, PILCO 알고리즘이 확률적 동역학 모델을 가우시안 프로세스로 모델링함으로써 실제 로봇에 성공적으로 적용되었다. 우리는 필코에서 한 발짝 더 나아가 시스템 동역학 중 어느 정도의 동역학을 알고 있다고 가정하였을 때 적용할 수 있는 방법론을 제시하였다. 예를 들어 동역학을 알고 있는 로봇 매니퓰레이터 끝에 모델링 되지 않은 물체가 달려있는 상황을 들 수 있다. 실제 동역학에서 로봇 동역학을 뺀 여분의 동역학을 확률적 가우시안 프로세스로 모델링 하였다. 로봇 동역학은 제어 최적화를 위해 필요한 동역학 미분을 정확하며 분석적인 형태로 구할 수 있도록 리 그룹으로 표현하였다. 이 방법을 KUKA LWR iiwa 14 R820 로봇 매니퓰레이터로 펜들럼을 돌려 세우는 태스크에 적용하였고 실험 결과를 통해 우리의 방법이 PILCO 보다 나은 데이터 효율성을 보여주는 것을 확인할 수 있었다.
In this thesis, we leverage Lie group robot dynamics with the probabilistic inference for learning control (PILCO) algorithm to develop a more effective model-based reinforcement learning robot control algorithm. Our method is particularly effective for robot systems in which only a part of the dynamics of the system is known, e.g., an object with unknown mass and inertia grasped by a robot with known dynamics. Using Gaussian processes (GP) for the probabilistic dynamic model, our method learns the residual dynamics, i.e., the difference between the known robot dynamics and the actual dynamics. The known part of the robot dynamics is expressed using Lie group methods and provides exact, closed-form analytic derivatives of the dynamics. Our algorithm is validated through numerical experiments for a pendulum swing-up task with a KUKA LWR iiwa 14 R820 robot, with results benchmarked against standard implementations of PILCO.
Language
eng
URI
https://hdl.handle.net/10371/150631
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share