Browse

진화 전략을 이용한 신뢰 영역 정책 최적화 알고리즘의 개선 : Improving Trust Region Policy Optimization with Evolution Strategy

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박정수

Advisor
이제희
Major
공과대학 컴퓨터공학부
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
기계 학습강화 학습물리 기반 캐릭터 제어신뢰 영역 정책 최적화진화 전략
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2018. 2. 이제희.
Abstract
물리 기반 시뮬레이션에서 캐릭터를 제어하는 문제는 로봇 공학과 컴퓨터 그래픽스 분야에서 오랫동안 중요하게 다루어져 온 연구 주제이다. 최근에는 이러한 문제를 해결하기 위한 방법으로써 강화 학습이 떠오르고 있는데, 강화 학습이란 에이전트가 어떠한 행동을 취하고 환경으로부터 그에 따른 보상을 받으며 학습하는 기계 학습의 한 분류이다. 행동이 단순한 Atari 게임의 경우, 강화 학습에 딥 러닝을 활용하여 사람과 유사한 수준으로 게임을 플레이하는 인공지능을 구현한 사례가 있다. 반면, 바둑처럼 행동의 가짓수가 굉장히 많거나, 캐릭터의 움직임처럼 행동 자체가 연속적인 경우에 성공적인 결과를 낸 강화 학습 연구 사례는 그리 많지 않다. 현재까지도 연속적인 행동 공간(Continuous state space)에서 효과적으로 동작하는 강화 학습 알고리즘에 대한 연구가 활발하게 진행되고 있다.
신뢰 영역 정책 최적화 알고리즘(TRPO)은 연속적인 행동 공간에서 특히 좋은 성능을 낸다고 알려져 있다. 이 알고리즘은 이론적으로는 최종 보상 값이 단조 증가할 수 있는 최적화 식을 통해 훈련을 진행한다. 정책에 대한 심층 신경망으로부터 학습을 위한 다수의 경로를 샘플링하여, 이들이 포함하고 있는 상태와 행동에 대한 데이터를 활용하여 다시 정책 네트워크를 훈련시킨다. 이 때, 새로운 정책은 기존의 정책에 대한 신뢰 영역 내에서 탐색이 이루어지게 되며, 이러한 탐색 제약 조건이 성립할 때에 단조 증가하는 경향성을 잃어버리지 않을 수 있다. 그러나, 신뢰 영역으로 정책 탐색이 제한되어 있기 때문에 탐색 영역 밖에 존재할 가능성이 있는 다른 우수한 정책들에 대한 충분한 탐험을 할 수 없다는 단점이 존재한다.
본 학위 논문에서는 학습을 위한 경로를 샘플링하는 방법으로써 진화 전략인 CMA-ES을 적용하였다. 환경으로부터 얻는 보상이 좋고, 기준이 되는 경로로부터 크게 벗어나지 않은 우수한 경로들을 통하여 다음 세대의 후보 경로들을 생성하는 진화적 탐색 기법이다. 이를 통해 기존의 정책에만 의존하면 시도해볼 수 없는 새로운 행동들을 간헐적으로 수행하며 탐험하도록 하였다. 단순히 정책 네트워크를 따라가며 소량의 노이즈를 추가하던 이전의 무작위적인 탐험에 비해, 합리적인 방식으로 다양한 경로에의 적극적 탐색을 시도할 수 있게 되었다.
물리 기반의 다양한 강화 학습 환경을 제공하는 OpenAI Gym에서 행동의 복잡도에 따라 3가지 환경을 선택하여 실험을 진행하였다. 신뢰 영역 정책 최적화에 추가적으로 진화 전략을 사용하였을 때, 환경에 따라 약 5~20%의 최종 보상이 증가하는 것을 확인하였으며, 유사한 결과 값에 수렴한 경우에는 수렴이 약 20% 빠르게 이루어졌다.
Language
Korean
URI
https://hdl.handle.net/10371/141576
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Computer Science and Engineering (컴퓨터공학부)Theses (Master's Degree_컴퓨터공학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse