Publications

Detailed Information

Learning-Assisted Rule-Based Vehicle Navigation under Complex Circumstances : 복잡한 상황에서 학습 보조 규칙 기반 차량 네비게이션

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

조경훈

Advisor
오성회
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(박사)--서울대학교 대학원 :공과대학 전기·정보공학부,2020. 2. 오성회.
Abstract
본 논문은 상위단계 조건이 명시된 상황에서 로봇의 motion planning 문제를 다루고 있다. 상위단계 조건은 안전성 제한조건 혹은 임무 조건들을 말하며, 보통 사용자로부터 주어진다. 다양한 motion planning 문제 중에서 로봇 내비게이션 문제에 대해 초점을 두었으며, 상위단계 조건은 논리적 표현중 하나인 시간논리(Temporal Logic)을 통해 표현되었다. 시간논리는 복잡한 임무나 규칙들의 상세한 내용을 로봇이 이해할 수 있는 단계로 표현할 수 있다. 본 논문은 시간논리로 표현된 상위단계 조건을 만족시키는 것과 최적의 해를 찾는 것 두 가지를 모두 다루고 있으며, 이는 로보틱스 분야에서 오랫동안 흥미로운 주제이다. 이 두 가지 목표는 일반적으로 높은 계산량을 요구하기 때문에 우리는 기계학습 등을 적용함으로써 효율적인 해를 찾는 데 주력하였다.

시간논리식을 제한조건으로 로봇 motion planning 연구한 많은 연구가 시간논리 조건을 만족하는 데는 성공했지만 몇 가지 단점을 보인다. 그 중 첫 번째는 많은 연구가 discrete system을 다루고 있다는 점과 두 번째로 거리와 같이 단순한 형태의 비용만을 고집한다는 점이다. 기존 연구와 차이점을 두고자, 본 논문은 선형시간논리(Linear Temporal Logic)으로 표현된 임무 조건을 만족하게 하면서 비용 최적화된 경로를 도출하는 offline motion planning 방법을 제안하였다. 제안된 방법은 configuration 공간상에서 비용이 임의로 정의되어 있다고 가정하였는데, 대표적인 예시로는 위험 레벨, 무선통신 연결, 혹은 에너지 소비지도 등을 들 수 있겠다. 효율적으로 낮은 비용의 경로를 구하기 위해서, 제안된 방법은 RRT구조에서 cross-entropy 기법을 활용한 extension을 도입하였다. 또한 RRT*의 rewiring 과정은 제안된 방법이 asymptotic optimality를 만족하도록 하였다.

앞서 제안된 방법은 task 관점에서 시간논리 조건이 활용된 반면, 우리는 시간논리로 표현된 여러 규칙이 존재하는 상황에서의 control synthesis문제를 다루었다. 이러한 상황과 가장 잘 부합하는 것은 바로 자율주행 문제이다. 운전자는 다양한 교통 규칙이 존재하는 상황에서 효율적으로 운전을 해야 한다. 우리는 모든 규칙이 만족하지 못하는 상황에 초점을 두었다. 이러한 딜레마는 사용자가 어떠한 규칙이 우선시되고 무시되어야 할지 결정하도록 강요한다. 우리는 학습 기반 모델예측제어(MPC)를 제안하였으며, 가장 큰 아이디어는 학습과 고전적 제어기법을 잘 결합함으로써 제안된 controller가 사람처럼 행동하도록 하는 것이다. 규칙은 신호시간논리(Signal Temporal Logic)을 통해 모델링 되었으며, 규칙의 만족 정도를 의미하는 robustness slackness가 사람의 주행데이터로부터 학습이 되었다. 앞서 학습된 robustness slackness는 모델예측제어 기법에 활용됨으로써, 상황마다 어떠한 규칙이 우선시되어야 할지 판단하도록 하였다.

자율주행에서 주위 차량의 미래 움직임과 규칙 조건을 모두 고려한 연구역시 본 논문에서 다루었다. 복잡한 상황에서 자율주행 차량이 안전한 주행을 하려면, 현재한 상황에 대한 명확한 이해가 선행되어야 하며 이는 자율주행 문제에서 굉장히 중요한 문제이다. 이러한 이해는 주위 차량의 미래 움직임을 예측하는 것과 현재 어떠한 규칙을 지켜야 하는 인식하는 것으로 볼 수 있다. 제안된 방법은 모델예측제어와 최근에 떠오르는 딥러닝 기법의 장점을 결합함으로써 더 안전한 controller를 설계하는 데 초점을 두었다.
제안된 방법은 딥러닝 구조에서 주위 차량의 미래경로와 규칙의 만족 정도를 동시에 추론했으며, 더욱 정확한 예측이 가능하도록 하였다. 학습된 규칙의 만족 정도는 예측된 결과에서 유효하지 않은 예측을 제거하는 데 활용되었다. 딥러닝 구조에서 추론 혹은 예측된 정보는 모델예측제어 단계에서 활용됨으로써 안전성과 효율성 두 가지를 모두 고려한 자율주행이 가능하도록 하였다.

마지막으로, 자율주행문제에서 계층적 방법을 도입하였다. 본 논문은 규칙을 이용해서 주행차의 움직임을 범주화 하였으며, 여기서 규칙의 만족 정도가 차량의 움직임을 표현하는 척도로 사용하였으며 이를 rule primitive라 표현하였다. 우리는 차량 움직임 모델이 rule primitive에 종속되게 하였고, 이를 주행데이터로부터 학습하도록 하였다. 학습 시 이전 연구와 마찬가지로 주위 차량의 이전 움직임을 고려하도록 하였다. 상위단계에서는 강화학습을 통해 적절한 rule primitive를 고르도록 하였다. 이러한 계층적 구조는 단순히 모방학습 혹은 강화학습 대비보다 더 안전한 controller를 설계할 수 있도록 하였다.
The thesis focuses primarily on motion planning problems for robotics with high-level specifications. High-level specifications refer to safety restrictions or task specifications, which are given by the user. We deal with robot navigation between various motion planning problems, and high-level specifications are specified through a logical formalism which is called temporal logic. Temporal logic can specify higher levels of detail and represent complex tasks or rules that the system can understand. The thesis addresses both the satisfaction of the specified high-level specification through temporal logic and the search for the optimal solution, which has attracting widespread interest in the fields of robotics.
Since considering both of the above points, satisfying high-level specifications and finding optimal solution, requires heavy computation, which makes applying temporal logic in real-world robotic problems inefficient. Given that considering the previous two points, satisfying high-level specifications and finding an optimal solution requires a heavy calculation, which makes the application of temporal logic in real-world robotic problems inefficient. The thesis minimizes this inefficiency and allows the use of temporal logic in robotics problems, especially in navigation problems.
In addition, we actively use deep learning techniques, which are gaining attention recently, to provide safer and more human-friendly robot navigation algorithms. Many motion planning under temporal logic specifications studies have successfully met the specified logic constraints but have some drawbacks, they deal with problems in discrete systems or consider simple cost, such as distance. To make a difference from the existing research, we propose an offline motion planning approach generating a cost-efficient path which satisfies mission requirements specified in linear temporal logic (LTL). Our approach assume that a cost function is defined over the configuration space. Examples of a cost function include hazard levels, wireless connectivity, and energy consumption, to name a few. In order to find a low-cost trajectory with computational efficiency, the proposed method expands the RRT tree with long extensions using cross entropy, while the rewiring step of RRT* is used to preserve the asymptotic optimality.

While the previous approach specifies a high-level task (or mission) for logic specification, we considered the problem of control synthesis in a situation where several safety rules were defined through temporal logic. The most representative of these problems is autonomous driving, where the driver must drive efficiently while complying with various traffic rules. A special attention is given to situations where all rules cannot be met in order to fulfill a given task. Such dilemmas compel us to make a decision on the degree of satisfaction of each rule including which rule should be maintained or not. we propose a learning-based model predictive control (MPC) method in order to solve this problem, where a key insight is to combine a learning method and traditional control scheme so that the designed controller behaves close to human experts. A rule is represented as a signal temporal logic (STL) formula. A robustness slackness, a margin to the satisfaction of the rule, is learned from expert's demonstrations using Gaussian process regression. The learned margin is used in a model predictive control procedure, which helps to decide how much to obey each rule, even ignoring specific rules.

Consideration of both movement of surrounding vehicles and rule constraints are made in autonomous driving problem, which is an important issue since the autonomous vehicle must understand complex and dynamic environment. This understanding consists of predicting future behavior of nearby vehicles and recognizing predefined rules. Our approach combines benefits of both traditional control approach (MPC) with the recent deep learning method in order to design a safe vehicle controller. We jointly reason both future trajectories of vehicles and degree of satisfaction of each rule in the deep learning framework. Joint reasoning allows modeling interactions between vehicles and leads to better prediction results. Learned robustness slackness decides which rule should be prioritized for the given situation for the autonomous vehicle and filter out non-valid predicted trajectories for surrounding vehicles.

The predicted information from the deep learning framework is used in model predictive control (MPC), which allows the autonomous vehicle navigate efficiently and safely. Lastly, a hierarchical approach is proposed for efficient learning controller in autonomous driving problems. We categorize the behavior of the agent based on predefined rules, a rule primitive, a margin to the satisfaction of the rule, acts as an interpretable maneuver classes for agent behavior. We let the agent movement model be conditioned on the rule primitive and ensure that the rule primitive indicates a high-level of behavior. Reinforcement learning is used to help select the appropriate high-level behavior. This hierarchical approach was able to learn a safer control strategy more efficiently than simply using imitation learning or reinforcement learning.
Language
eng
URI
https://hdl.handle.net/10371/168045

http://dcollection.snu.ac.kr/common/orgView/000000160934
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share