Publications

Detailed Information

Reinforcement Learning Based on the Deep Galerkin Method : 심층 갤러킨 방법 기반 강화 학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최진원

Advisor
박종우
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 기계항공공학부,2020. 2. 박종우.
Abstract
This thesis proposes a deep Galerkin-based algorithm for reinforcement learning. Recognizing that reinforcement learning can be viewed as a collection of methods and techniques to approximately solve the dynamic programming equations, we frame our problem as a continuous-time stochastic optimal feedback control problem in which the reward (cost function) is known, but the environment model (state dynamics) is not; instead, sample trajectories are available for learning the environment model. Using a Gaussian mixture model to represent the dynamics, model parameters are learned from the sample trajectories. The associated Hamilton-Jacobi-Bellman (HJB) equations are then solved using the deep Galerkin method; here the optimal policy (feedback control law) and value function (cost-to-go) are modelled as independent deep learning networks. Monte Carlo sampling is then used to solve the associated HJB equations and obtain an optimal policy. Experiments are undertaken to assess the performance of our approach vis- a-vis existing reinforcement learning algorithms. As a by-product of our work, a taxonomy of existing reinforcement learning algorithms from a stochastic optimal control perspective is also provided.
본 논문에서는 제어 이론적 관점에서 강화 학습 알고리즘의 분류법을 제안하고, 연속적인 시스템에서의 최적 제어 문제를 풀기위한 새로운 강화 학습 방법을 제안한다. 강화 학습 알고리즘을 모델 기반 알고리즘과 모델을 사용하지 않는 알고리즘으로 나누는 대신, 우리는 강화 학습 알고리즘이 어떤 방정식을 해결하느냐에 초점을 맞춘다. 후자의 관점에 따르면 연속적인 시스템 문제를 해결하기 위한 두 가지 접근방식이 있는데, (1) 이산적인 시스템의 동작 계획 방법으로 벨만 방정식을 푸는 방식에 딥러닝 같은 함수 근사 기법을 더하여 연속적인 시스템의 근사해를 구하는 방법, (2) 편미분방정식 형태의 벨만 방정시인 해밀턴-자코비-벨만 방정식을 푸는 방법이다. 대부분의 강화 학습 알고리즘은 첫 번째 접근법을 따르고 있지만, 근사치로 벨만 방정식을 풀 때 해의 수렴성이 보장되지 않는다. 또한, 이 접근방식은 연속적인 시스템을 이산적으로 쪼개는 하나의 근사 단계를 더 수반하여, 근사 오차가 쌓일 수 있다. 몇몇 모델 기반 강화 학습 알고리즘 중에는 해밀턴-자코비-벨만 방정식을 선형 편미분방정식 꼴로 수정하여 풀거나 비선형시스템을 부분적 선형시스템으로 가정해서 푸는 방법이 있지만, 해밀턴-자코비-벨만 방정식을 직접 푸는 강화 학습 알고리즘은 없다. 본 논문에서는 딥러닝을 이용해 편미분방정식을 푸는 방법인 심층 갤러킨 방법에 기초하여 새로운 강화 알고리즘을 제안한다. 우리의 새로운 알고리즘은 해밀턴-자코비-벨만 방정식을 재조정이나 단순화 없이 해결한다. 실험부분에서는 첫 번째 접근법에 따른 기존의 강화 학습 알고리즘과 새로운 알고리즘을 단순한 1차원 최적 제어 문제에서의 근사 성능을 비교하고, 또한 고차원 문제에서 새로운 알고리즘을 테스트한다.
Language
eng
URI
http://dcollection.snu.ac.kr/common/orgView/000000160910
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share