Publications

Detailed Information

Learning Temporally-Extended Actions with Uncertainty-Aware Q-learning : 불확실성을 고려한 반복 행동 정책 학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이중규

Advisor
오민환
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Reinforcement LearningTemporal AbstractionAction RepeatUncertaintyExploration
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2023. 2. 오민환.
Abstract
In reinforcement learning, temporal abstraction in action space is a common approach to simplifying the learning process of policies through temporally extended courses of action. In recent work, temporal abstractions are often mod eled as repeating the chosen action for a certain duration. A major drawback
of the prior work on action repetition is that repetitions of suboptimal actions may lead to significant deterioration in performance. Hence, the degradation in performance that action repetition causes can be larger than the gains it provides. We propose a novel algorithm named Uncertainty-aware Temporal
Extension (UTE), which leverages ensemble methods to estimate uncertainty when extending an action. Our uncertainty-aware learning framework can allow policies to be exploration-favor or uncertainty-averse. We empirically demonstrate the efficacy of UTE on both gridworld and Atari 2600 environments, exhibiting superior performances over alternative algorithms.
강화 학습에서, 행동의 추상화는 정책의 학습과정을 간소화하는 일반적인 접근 방식입니다. 최근, 행동의 추상화를 구현하는 방법론으로 단순히 행동을 일정 기간 동안 반복하는 것이 연구되고 있습니다. 그러나 기존의 행동 반복 연구들의 주요 단점은 차선의 행동을 불필요하게 많이 반복하여 성능이 저하될 수 있다는 문제점이 있습니다. 이러한 경우, 행동의 반복으로 탐색에 이점을 가지는 것보다 그로인한 성능 저하가 더 클 수 있습니다. 따라서, 앙상블 기법을 활용하여 불확실성을 측정하고, 그 불확실성을 고려한 행동 연장 알고리듬(Uncertainty-aware Temporal Extension, UTE)을 고안하였습니다 우리의 알고리듬은 불확실성을 제어하여 더 적극적인 탐색을 유도하거나, 불확실성을 회피하는 정책을 유도할 수 있습니다. 우리는 그리드 월드와 아타리 2600 환경을 비롯한 다양한 환경에서 성능을 평가하였고, 기존의 방법론들보다 우수한 성능을 보임을 확인하였습니다.
Language
eng
URI
https://hdl.handle.net/10371/193612

https://dcollection.snu.ac.kr/common/orgView/000000176360
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share