Publications

Detailed Information

Reinforcement Learning Based on the Deep Galerkin Method : 심층 갤러킨 방법 기반 강화 학습

DC Field Value Language
dc.contributor.advisor박종우-
dc.contributor.author최진원-
dc.date.accessioned2020-05-07T03:32:35Z-
dc.date.available2020-05-07T03:32:35Z-
dc.date.issued2020-
dc.identifier.other000000160910-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000160910ko_KR
dc.description학위논문(석사)--서울대학교 대학원 :공과대학 기계항공공학부,2020. 2. 박종우.-
dc.description.abstractThis thesis proposes a deep Galerkin-based algorithm for reinforcement learning. Recognizing that reinforcement learning can be viewed as a collection of methods and techniques to approximately solve the dynamic programming equations, we frame our problem as a continuous-time stochastic optimal feedback control problem in which the reward (cost function) is known, but the environment model (state dynamics) is not; instead, sample trajectories are available for learning the environment model. Using a Gaussian mixture model to represent the dynamics, model parameters are learned from the sample trajectories. The associated Hamilton-Jacobi-Bellman (HJB) equations are then solved using the deep Galerkin method; here the optimal policy (feedback control law) and value function (cost-to-go) are modelled as independent deep learning networks. Monte Carlo sampling is then used to solve the associated HJB equations and obtain an optimal policy. Experiments are undertaken to assess the performance of our approach vis- a-vis existing reinforcement learning algorithms. As a by-product of our work, a taxonomy of existing reinforcement learning algorithms from a stochastic optimal control perspective is also provided.-
dc.description.abstract본 논문에서는 제어 이론적 관점에서 강화 학습 알고리즘의 분류법을 제안하고, 연속적인 시스템에서의 최적 제어 문제를 풀기위한 새로운 강화 학습 방법을 제안한다. 강화 학습 알고리즘을 모델 기반 알고리즘과 모델을 사용하지 않는 알고리즘으로 나누는 대신, 우리는 강화 학습 알고리즘이 어떤 방정식을 해결하느냐에 초점을 맞춘다. 후자의 관점에 따르면 연속적인 시스템 문제를 해결하기 위한 두 가지 접근방식이 있는데, (1) 이산적인 시스템의 동작 계획 방법으로 벨만 방정식을 푸는 방식에 딥러닝 같은 함수 근사 기법을 더하여 연속적인 시스템의 근사해를 구하는 방법, (2) 편미분방정식 형태의 벨만 방정시인 해밀턴-자코비-벨만 방정식을 푸는 방법이다. 대부분의 강화 학습 알고리즘은 첫 번째 접근법을 따르고 있지만, 근사치로 벨만 방정식을 풀 때 해의 수렴성이 보장되지 않는다. 또한, 이 접근방식은 연속적인 시스템을 이산적으로 쪼개는 하나의 근사 단계를 더 수반하여, 근사 오차가 쌓일 수 있다. 몇몇 모델 기반 강화 학습 알고리즘 중에는 해밀턴-자코비-벨만 방정식을 선형 편미분방정식 꼴로 수정하여 풀거나 비선형시스템을 부분적 선형시스템으로 가정해서 푸는 방법이 있지만, 해밀턴-자코비-벨만 방정식을 직접 푸는 강화 학습 알고리즘은 없다. 본 논문에서는 딥러닝을 이용해 편미분방정식을 푸는 방법인 심층 갤러킨 방법에 기초하여 새로운 강화 알고리즘을 제안한다. 우리의 새로운 알고리즘은 해밀턴-자코비-벨만 방정식을 재조정이나 단순화 없이 해결한다. 실험부분에서는 첫 번째 접근법에 따른 기존의 강화 학습 알고리즘과 새로운 알고리즘을 단순한 1차원 최적 제어 문제에서의 근사 성능을 비교하고, 또한 고차원 문제에서 새로운 알고리즘을 테스트한다.-
dc.description.tableofcontents1. Introduction 1
1.1 A Taxonomy of Reinforcement Learning Algorithms 3
1.2 Reinforcement Learning and the Deep Galerkin Method 5
1.3 Thesis Organization 8
2. Stochastic Optimal Control 11
2.1 Continuous-Time Systems 11
2.1.1 Optimal Control Problem 11
2.1.2 Dynamic Programming 14
2.2 Discrete-Time Systems 15
2.2.1 Optimal Control Problem 15
2.2.2 Dynamic Programming Principle 17
2.2.3 Dynamic Programming Methods 19
3 Reinforcement Learning 22
3.1 Introduction 22
3.2 Approximation in Value and Policy Space 25
3.3 Taxonomy of Reinforcement Learning 28
4 Deep PDE Solver and Reinforcement Learning 37
4.1 Deep PDE solver 37
4.2 Reinforcement Learning based on Deep Galerkin Method 39
5 Experiments 43
5.1 Experiment Environment 43
5.2 Experimental Results 44
6 Conclusion 50
Bibliography 52
Abstract 59
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subject.ddc621-
dc.titleReinforcement Learning Based on the Deep Galerkin Method-
dc.title.alternative심층 갤러킨 방법 기반 강화 학습-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorChoi, Jinwon-
dc.contributor.department공과대학 기계항공공학부-
dc.description.degreeMaster-
dc.date.awarded2020-02-
dc.contributor.major기계전공-
dc.identifier.uciI804:11032-000000160910-
dc.identifier.holdings000000000042▲000000000044▲000000160910▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share