Publications

Detailed Information

Dual-arm Manipulation Using Hierarchical Reinforcement Learning : 계층적 강화학습을 통한 양팔로봇 매니퓰레이션

DC Field Value Language
dc.contributor.advisor김현진-
dc.contributor.author조대솔-
dc.date.accessioned2022-04-05T04:35:58Z-
dc.date.available2022-04-05T04:35:58Z-
dc.date.issued2021-
dc.identifier.other000000166973-
dc.identifier.urihttps://hdl.handle.net/10371/177631-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000166973ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 공과대학 기계항공공학부, 2021.8. 박목인.-
dc.description.abstract강화학습은 복잡한 움직임을 만들어낼 수 있는 강력한 도구이다. 하지만 양팔로봇이 간단한 형식의 보상 기반 강화학습 기법으로 순차적인 매니퓰레이션 작업을 수행하기위한 기술들을 배우는데에는 여전히 많은 어려움이 존재한다. 특히나, 로봇은 작업 순서의 조합방식에 대해 알아야 할 뿐만 아니라 환경내의 장애물과 같은 방해요소들을 피하는 방법도 알아야한다. 이러한 문제를 다루기 위해, 실제 도달가능한 상태와 추정된 도달가능한 상태간의 차이를 측정하는 격차함수를 제안하였으며, 격차함수를 기반으로 주어진 목표지점의 도달가능성 여부에 대한 보수적인 정보를 제공해주는 경로계획맵을 구성하였다. 이를 기반으로 복잡한 환경에서의 순차적 매니퓰레이션 문제에 적용가능한 알고리즘을 작업순서학습기법과 함께 구성하였으며, 신뢰성있고 안전하게 도달가능한 상태들을 샘플링하는 측면에서 제안한 방법이 개선을 가져옴을 확인했고, 현실적인 상황에 적용가능함을 보였다.-
dc.description.abstractReinforcement Learning (RL) is a powerful tool for acquiring complex skills. However, it is still difficult for a dual-arm robot to acquire skills for sequential manipulation tasks with a simple reward-based RL approach. Specifically, the robot needs to know not only how to compose sequences of tasks but also how to avoid the interrupting elements in the environment. To address this problem, we propose a discrepancy function that estimates the discrepancy between estimated reachable state and truly reachable state. Then, a planning map that provides conservative information about whether a given goal state is reachable or not is constructed by the discrepancy function. Combining these with task sequence learning, we develop an algorithm that is applicable to complex sequential manipulation problems in a cluttered environment. We find that our method provides an improvement in sampling reliable and safe reachable states in various environments and show that it is applicable to the realistic setting.-
dc.description.tableofcontents1 Introduction 1
1.1 Thesis contribution 3
1.2 Thesis outline 4
2 Related works 5
3 Preliminary 7
3.1 Temporal di erence model (TDM-SAC) 7
3.2 Task sequence learning 10
4 Method 12
4.1 Discrepancy function 12
4.2 Planning map 13
4.3 Reduced function 14
5 Experiments 16
5.1 Simulation and training setup 16
5.2 TDM-SAC pre-training results 18
5.2.1 Value function 18
5.2.2 Discrepancy function 18
5.2.3 Planning map 18
5.2.4 Sampling quality 20
5.3 Training results 21
6 Conclusion and future works 26
-
dc.format.extentvii, 30-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectDual-arm Manipulation-
dc.subjectReinforcement Learning-
dc.subjectPlanning-
dc.subject양팔로봇 매니퓰레이션-
dc.subject강화학습-
dc.subject경로계획-
dc.subject.ddc621-
dc.titleDual-arm Manipulation Using Hierarchical Reinforcement Learning-
dc.title.alternative계층적 강화학습을 통한 양팔로봇 매니퓰레이션-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorDaesol Cho-
dc.contributor.department공과대학 기계항공공학부-
dc.description.degree석사-
dc.date.awarded2021-08-
dc.contributor.major항공우주공학전공-
dc.identifier.uciI804:11032-000000166973-
dc.identifier.holdings000000000046▲000000000053▲000000166973▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share