Publications

Detailed Information

Policy Learning for Task Allocation from Manual Demonstrations by a Human User : 운용자의 수동 임무할당 시연을 통한 정책 학습

DC Field Value Language
dc.contributor.advisor김현진-
dc.contributor.author안세일-
dc.date.accessioned2017-07-14T03:35:47Z-
dc.date.available2017-07-14T03:35:47Z-
dc.date.issued2014-08-
dc.identifier.other000000021862-
dc.identifier.urihttps://hdl.handle.net/10371/123795-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 기계항공공학부, 2014. 8. 김현진.-
dc.description.abstract본 논문에서는 운용자가 직접 수행한 수동 임무할당 결과로부터 운용자의 임무할당 정책을 학습하는 연구를 수행하였다. 운용자의 정책 학습을 위한 전 과정으로 유전 알고리즘을 활용한 자동 임무할당을 제안하였으며, 자동 임무할당 알고리즘을 이용하여 이후 기계 학습을 위해 필요한 훈련 데이터를 생성하였다. 훈련 데이터는 미리 주어진 임무할당 정책 모델 별로 생성되었으며, 새로운 임무할당 데이터가 주어지면 그 데이터를 기존의 훈련 데이터와 비교하여 임무할당 정책을 추정하는 알고리즘을 제안하였다. 나이브 베이즈 기법과 최대우도추정법, k 최근접 탐색 기법이 각각 적용되었다. 추정 알고리즘의 성능 검증을 위해 자동 임무할당 알고리즘을 사용하는 가상의 운용자를 가정하였고, 정책 추정 알고리즘이 가상의 운용자가 수행한 임무할당 결과들로부터 임무할당 정책을 정확히 추정하는 것을 확인하였다. 또한 운용자의 정책이 지속적으로 변화는 상황에서 알고리즘이 정책을 잘 추종하며 운용자의 수동 임무할당을 효과적으로 자동화하는 것을 확인하였다. 운용자의 임무할당 신뢰도를 평가하였으며, 신뢰도를 향상시킬 수 있는 운용자 임무할당 보정 알고리즘을 제안하였다.-
dc.description.abstractWe present a policy learning algorithm for task allocation which has multiple objectives. Usually in many task allocation algorithms, the total distance which robots move is considered as an objective but if there exist threats on robots, avoiding threats also can be an objective of task allocation. The proposed algorithm learns a policy defined by weights of total distance and threat level. A Bayesian approach and k-Nearest Neighbor classifier are employed as learning algorithms and the comparison of these approaches is presented. The policy learning algorithm precisely estimates the policy as the results of task allocations are accumulated. By using the proposed algorithm, a manual task allocation of the user can be successfully replaced with the automated allocation algorithm using the same policy. As an application, reliability of the human user in task allocation will be figured out, and an user assistance algorithm is also presented to support task allocation of the human user. The performance and the reliability of the user can be improved using the assistance algorithm.-
dc.description.tableofcontentsAbstract ii
Table of Contents iii
List of Figures iv
Chapter
1 Introduction 1
2 Background 4
2.1 Problem formulation 4
2.2 Task allocation algorithm 7
3 Policy learning 9
3.1 Setup : data generation and user interface 9
3.2 Feature selection for machine learning 10
3.3 Policy estimation algorithm 12
3.3.1 Naive Bayes classifier 13
3.3.2 Maximum likelihood estimation 14
3.3.3 k-Nearest Neighbor Classifier 16
4 Results 20
4.1 Convergence of policy estimation error 21
4.2 Policy estimation test 22
4.3 User policy tracking test 23
4.4 User data reliability test 25
4.5 User assistance algorithm 27
5 Conclusions 37
-
dc.formatapplication/pdf-
dc.format.extent1531670 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoen-
dc.publisher서울대학교 대학원-
dc.subject임무 할당-
dc.subject인간 로봇 간 협업-
dc.subject기계 학습-
dc.subject다중 로봇-
dc.subject.ddc621-
dc.titlePolicy Learning for Task Allocation from Manual Demonstrations by a Human User-
dc.title.alternative운용자의 수동 임무할당 시연을 통한 정책 학습-
dc.typeThesis-
dc.contributor.AlternativeAuthorSEIL AN-
dc.description.degreeMaster-
dc.citation.pagesiv, 41-
dc.contributor.affiliation공과대학 기계항공공학부-
dc.date.awarded2014-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share