Browse

A Survey on Distributional Reinforcement Learning
분포 기반 강화학습에 대한 고찰

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
신재욱
Advisor
강명주
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :자연과학대학 수리과학부,2020. 2. 강명주.
Abstract
Driven by the recent advances in deep learning, reinforcement learning has been exploited in a variety of complex decision domains. While the rich amount of studies have been done to improve scalability and stability of classical reinforcement algorithms based on expected reward maximization, there has been few attempt to generalize the notion of value function to utilize full information of reward distribution. Recently proposed ideas to develop reinforcement learning algorithm in distributional sense is called distributional reinforcement learning.
To understand distributional algorithms which solves Markov decision process, we first review non-distributional reinforcement learning algorithms. We recall the concept of value functions, Bellman equation, and theorems concerning the optimality condition. After that, we introduce recent works directed toward the development of distributional learning algorithms under the standard optimality criterion. Since these algorithms involve new formulation of Bellman equation which propagates the whole reward distribution rather than the mean of the reward, it is indispensable to verify the property of the equation under various statistical distance. One desirable choice is Wasserstein distance, which take account the geometrical information into measurement. Hence, together with the complete form of these recent distributional algorithms, we briefly discuss the property of Wasserstein distance and the related problems.
Finally, we revive the old theory built upon general optimality criterion that consider the whole reward distribution. The theory extends the notion of value function to signed moment generating value function and standard Bellman operator to the moment Bellman operator. For deeper understanding of the theory, we compare the lexicographic order on the space of probability distributions to other partial orders such as stochastic order. In addition, we study the contraction property of moment Bellman operator defined on the vector space of bounded analytic functions equipped with supremum norm, which may lead to learning algorithms with statistical steadiness. The analysis of the property are followed by experiment on two-state Markov decision process.
심층 신경망 기술의 발전에 힘입어, 강화학습은 복잡도가 높은 여러 의사 결정 영역에서 성공적으로 사용되고 있다. 전통적인 강화학습은 대부분 가치 함수를 이용하여 보상의 평균을 극대화하는 것을 목표로 하고, 이를 안정적으로 달성하기 위한 알고리즘을 설계하는 것에 주안점을 두고 있다. 이를 확장하여 보상의 평균만이 아닌 보상의 확률 분포 자체를 이용한 강화학습에 대한 연구는 상대적으로 빈약하였으나, 최근 강화학습이 근사 기법들과 결합되어 활발하게 연구되면서 분포 기반 강화학습에도 새로운 방법론과 알고리즘들이 제안되고 있다.
이러한 분포 기반 강화학습을 이해하기 위해서는 먼저 전통적인 가치 함수 기반 강화학습과 관련된 이론들에 대해 깊이 이해할 필요가 있다. 구체적으로, 가치 함수와 Bellman 방정식의 개념 등은 분포 기반 강화학습에서 자연스럽게 확장되어 새로운 알고리즘들을 설계하기 위한 기반이 된다. 이를 바탕으로, 최근 제안된 C51 알고리즘, 분위 회귀 신경망 알고리즘 등을 살펴본다. 이 알고리즘들의 이론적인 성질을 분석하기 위해서 Wasserstein 거리 등과 같은 분포 간 거리들이 갖는 흥미로운 성질들과, 이 성질들이 Bellman 방정식의 축소 성질을 규명하는데 어떻게 이용되는지 살펴본다.
끝으로, 보상의 평균을 극대화하는 것이 아닌, 보상 분포의 모든 적률을 고려하여 최적의 정책을 찾는 강화학습의 이론에 대해 살펴본다. 보상 분포의 모든 적률을 고려하여 얻은 최적의 정책은 평균만을 고려했을 때보다 훨씬 안정적이지만, 이러한 정책의 존재성 등에 대한 이론적인 결과들만이 알려져 있을 뿐, 실제로 최적해를 얻는 실용적인 알고리즘에 대한 연구가 전무하다. 본 논문에서는 적률 측면에서 최적인 정책을 얻는 효과적인 알고리즘의 설계를 위해, 적률의 관점에서 새로이 쓰여진 Bellman 방정식의 축소 성질을 증명한다. 이러한 성질을 효과적으로 유도하는 것은, 알맞은 형태의 적률 가치 함수를 정의하고 이 적률 가치 함수들을 모은 벡터 공간에 적절한 노음을 부여하는 것을 수반한다. 이 Bellman 방정식이 실제로 좋은 척도가 됨을 실험을 통해 확인함으로써 실제 알고리즘으로의 발전 가능성을 확인한다.
Language
eng
URI
http://dcollection.snu.ac.kr/common/orgView/000000160320
Files in This Item:
Appears in Collections:
College of Natural Sciences (자연과학대학)Dept. of Mathematical Sciences (수리과학부)Theses (Master's Degree_수리과학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse