Publications

Detailed Information

Deep recurrent neural network-based reinforcement learning technique for controlling quadrotors with unknown physical quantities : 임의의 물리량을 가지는 쿼드로터 제어를 위한 심층 순환 신경망 기반 강화 학습 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

조재경

Advisor
서승우; 김성우
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Quadrotor controllerrecurrent neural networkreinforcement learningroboticsdeep learning
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 전기·정보공학부, 2023. 2. 서승우
김성우.
Abstract
This thesis proposes a deep recurrent neural network-based controller for the quadrotor with reinforcement learning. The robot controller can be defined as an agent producing motor control action directly from the raw state of the robot. The controller needs to be fine-tuned according to the dynamics model of the robot being controlled because the dynamics model determines the state change when an action is executed. The dynamics model of all real quadrotors inevitably differs even if they are the same product because the physical quantities are uncertain. In particular, the dynamics can change significantly during the flight due to overheating motors or propeller damage. The objective of our low-level controller is to maintain its performance while changes in the dynamics model without prior knowledge or fine-tuning of the parameters.
To solve the problem, a reinforcement learning (RL) based controller including a recurrent neural network (RNN) structure is proposed. RL is used to train the controller by data-driven from the environment instead of mathematical modeling. Furthermore, RNNs help extracts information about the dynamics model from the state--action history sequence. However, learning is not performed by simply including the RNN in the RL loop since the quadrotor is not stable enough to get good data by random exploration. We proposed a method to increase learning stability by separating a dynamics extractor module that includes an RNN structure from the RL loop. The dynamic extractor is trained to predict dynamics information from the state-action sequence in a supervised-learning manner, and the actor-critic of RL is trained with the ground truth of the dynamics information provided by the simulator.
The proposed method is the first study to apply RNNs for the low-level controller of the quadrotor, and outperform the existing model-based controller and feed-forward network-based controller in the simulation environment. The training process is conducted in the simulation called Gym-pybullet-drone which can randomize all the possible quadrotor dynamics parameters that may affect the controller performance. Although training is conducted in the simulator, all hardware constraints are satisfied to verify the applicability to real drones. Further research is needed to verify and improve its performance using actual drones.
본 논문에서는 쿼드로터의 물리량을 모르는 상태에서도 강건하게 동작할 수 있는 강화 학습을 이용해 학습한 심층 순환 신경망 기반의 쿼드로터 제어기를 제안한다. 로봇 제어기는 로봇의 상태를 기반으로 모터 제어 신호를 생성하는 역할로 정의할 수 있는데, 이는 제어하려는 로봇의 동역학 모델에 맞게 미세조정해야 한다. 동역학 모델은 특정 모터 제어 신호를 가했을 때 로봇의 상태가 변하는 정도를 결정하는 것으로, 로봇의 물리량들에 따라 달라진다. 모든 실제 쿼드로터는 질량이나 회전 관성 등의 물리량이 불확실하기 때문에 같은 제품이라도 동역학 모델이 다를 수밖에 없다. 특히 쿼드로터는 비행 중 모터 과열이나 프로펠러 손상으로 인해 역학 모델이 바뀔 가능성이 높다.
이 문제를 해결하기 위해 순환 신경망 구조를 포함하는 깅화학습 기반 제어기 학습 기법을 제안한다. 강화학습은 쿼드로터 역학모델을 수학적으로 모델링하는 대신, 환경에서 얻은 데이터를 이용해 제어기를 훈련하는데 사용된다. 순환 신경망은 쿼드로터의 연속적인 상태들과 모터 신호들로부터 역학 모델에 대한 정보를 추출한다. 그러나 쿼드로터는 초당 제어 빈도수가 높고 컴퓨팅 장치의 성능이 제한적이기 때문에, end-to-end 방식으로 순환 신경망 구조를 사용했을 때 학습이 불안정해지는 문제가 발생한다. 따라서 강화학습 과정에서 심층 순환 신경망 구조를 포함하는 역학 모델 추출기 모듈을 따로 분리하는 방식을 제안한다. 역학 모델 추출기는 지도학습 방식으로 쿼드로터 상태들과 모터 신호들로부터 역학 정보를 예측되도록 훈련되며, 강화학습의 액터-크리틱 구조는 시뮬레이터에서 제공하는 역학 모델의 참값을 기반으로 훈련된다.
제안된 방법은 3차원 쿼드로터 제어기에 심층 순환 신경망을 적용한 최초의 연구이며, Gym-pubullet-drone이라는 시뮬레이션 환경을 이용해 학습을 진행하였다. 시뮬레이터에서 학습이 진행될 때에도 실제 드론에 대한 적용 가능성을 검증하기 위해 Crazyflie 라는 실제 쿼드로터의 모든 하드웨어 제약조건을 만족하는 심충 네트워크 모델을 설계하였다. 제안된 제어기는 무작위 역학 모델을 가지는 쿼드로터 안정화 실험에서 기존의 모델 기반 제어기와 심층 신경망 기반 제어기보다 나은 성능을 보였고, 특히 모터 성능 저하나 무게중심 이동 등의 비대칭적 변화에 대해 더 효과적인 성능 개선을 검증하였다. 이러한 방식을 통해 비행 중 모터가 과열되거나 프로펠러가 손상되는 등 동역학 모델이 변화할 수 있는 상황에 대응해 제어가 가능할 것이다.
본 연구는 추후 몇 가지 개선 가능성을 시사하고 있다. 첫째로, 실제 쿼드로터 모델에 적용하기 위한 하드웨어 제약조건 때문에 제어기 모델의 사이즈가 제한되었다. 더 커다란 모델을 사용하여 학습한 후 network distillation이나 quantization을 사용하여, 동일한 성능을 보이면서 모델의 사이즈를 축소하는 방법론들을 적용할 수 있다. 둘째로, 보상 함수 디자인 과정에서 너무 많은 상충관계가 있기 때문에, 본 연구에서 사용한 보상함수가 최적이라는 보장이 없다. 추후 연구에서 바이너리 목표 도달 보상 함수를 사용하여, 보상 함수 디자인 과정을 생략할 수 있을 것이다.
Language
eng
URI
https://hdl.handle.net/10371/193241

https://dcollection.snu.ac.kr/common/orgView/000000176365
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share