Publications

Detailed Information

Safe Reinforcement Learning for Probabilistic Safety Verification: A Lyapunov-Based Approach : 확률적 안전성 검증을 위한 안전 강화학습: 랴푸노브 기반 방법론

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

허수빈

Advisor
양인순
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
Safe reinforcement learningprobabilistic reachability analysissafety specification안전 강화학습확률적 도달성 분석안전성 상세화
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 전기·정보공학부, 2020. 8. 양인순.
Abstract
Emerging applications in robotic and autonomous systems, such as autonomous driving and robotic surgery, often involve critical safety constraints that must be satisfied even when information about system models is limited. In this regard, we propose a model-free safety specification method that learns the maximal probability of safe operation by carefully combining probabilistic reachability analysis and safe reinforcement learning (RL). Our approach constructs a Lyapunov function with respect to a safe policy to restrain each policy improvement stage. As a result, it yields a sequence of safe policies that determine the range of safe operation, called the safe set, which monotonically expands and gradually converges. We also develop an efficient safe exploration scheme that accelerates the process of identifying the safety of unexamined states.
Exploiting the Lyapunov shieding, our method regulates the exploratory policy to avoid dangerous states with high confidence.
To handle high-dimensional systems, we further extend our approach to deep RL by introducing a Lagrangian relaxation technique to establish a tractable actor-critic algorithm.
The empirical performance of our method is demonstrated through continuous control benchmark problems, such as a reaching task on a planar robot arm.
자율주행, 로봇 수술 등 자율시스템 및 로보틱스의 떠오르는 응용 분야의 절대 다수는 안전한 동작을 보장하기 위해 일정한 제약을 필요로 한다. 특히, 안전제약은 시스템 모델에 대해 제한된 정보만 알려져 있을 때에도 보장되어야 한다. 이에 따라, 본 논문에서는 확률적 도달성 분석(probabilistic reachability analysis)과 안전 강화학습(safe reinforcement learning)을 결합하여 시스템이 안전하게 동작할 확률의 최댓값으로 정의되는 안전 사양을 별도의 모델 없이 추정하는 방법론을 제안한다. 우리의 접근법은 매번 정책을 새로 구하는 과정에서 그 결과물이 안전함에 대한 기준을 충족시키도록 제한을 거는 것으로, 이를 위해 안전한 정책에 관한 랴푸노프 함수를 구축한다. 그 결과로 산출되는 일련의 정책으로부터 안전 집합(safe set)이라 불리는 안전한 동작이 보장되는 영역이 계산되고, 이 집합은 단조롭게 확장하여 점차 최적해로 수렴하도록 만다. 또한, 우리는 조사되지 않은 상태의 안전성을 더 빠르게 파악할 수 있는 효율적인 안전 탐사 체계를 개발하였다. 랴푸노브 차폐를 이용한 결과, 우리가 제안하는 탐험 정책은 높은 확률로 위험하다 여겨지는 상태를 피하도록 제한이 걸린다. 여기에 더해 우리는 고차원 시스템을 처리하기 위해 제안한 방법을 심층강화학습으로 확장했고, 구현 가능한 액터-크리틱 알고리즘을 만들기 위해 라그랑주 이완법을 사용하였다. 더불어 본 방법의 실효성은 연속적인 제어 벤치마크인 2차원 평면에서 동작하는 2-DOF 로봇 팔을 통해 실험적으로 입증되었다.
Language
eng
URI
https://hdl.handle.net/10371/169298

http://dcollection.snu.ac.kr/common/orgView/000000161645
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share