Publications

Detailed Information

Context-Aware Robot Behavior Learning for Practical Human-Robot Interaction : 실질적 인간-로봇 상호작용을 위한 문맥 인지 기반 로봇 행동 학습

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

안혜민

Advisor
오성회
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(박사)--서울대학교 대학원 :공과대학 전기·정보공학부,2020. 2. 오성회.
Abstract
실제 환경에서 사람과 상호작용하는 로봇은 적절한 행동을 생성하기 위해 현재 상황이 담고있는 문맥적 정보를 파악 할 수 있어야 한다. 이러한 문맥 인식 기반의 로봇 행동 생성 기법은 향후 인간 사회에서 공존하는 로봇이 실제 사람과 상호작용하는데에 필수적인 요소가 되어줄 것이다. 본 학위 논문에서는 향후 문맥 인식 기반 서비스 로봇을 구현하기 위해 필요한 네 가지 요소를 제시하며, 각 요소들을 구현하기 위해 사용되는 학습 기반의 방법론들을 제시한다.

첫째, 로봇은 인간 개개인이 가진 고유한 특성에 의해 발생되는 문맥적 정보를 고려해 개개인에게 맞춤화된 행동을 생성할 수 있어야 한다. 개인 맞춤화된 행동 생성을 위해서, 로봇은 각 사용자가 가진 특성을 여러번의 상호작용을 통해 예측해낼 수 있어야 한다. 이러한 사용자 개개인에게 맞춤화된 로봇과의 상호작용은 해당 로봇과 사람간의 유대관계 형성에 긍정적인 영향을 미칠 것이다. 이러한 첫 번째 요소와 관련해, 본 학위 논문은 먼저 사람 개개인이 가진 Personal Space (개인 공간)를 고려해 사용자에게 다가가는 맞춤형 접근 경로 생성 방법론을 제시한다. 해당 방법론은 먼저 개인공간을 모델링 할 수 있는 Personal Comfort Field를 제안하며, 제안된 Personal Comfort Field는 사람 개개인마다 다른 모양을 갖는다고 가정한다. 해당 Personal Comfort Field의 학습을 위해, 로봇은 사용자 주변을 탐색해가며 사용자가 선호하는 로봇의 접근 경로에 대한 정보를 알아내야 한다. 동시에, 로봇은 현재까지 수집된 로봇에 대한 사용자의 비언어적 반응 정보에 기반해 예측된 Personal Comfort Field 값을 토대로 접근 경로를 생성할 수 있어야 한다. 본 학위논문에서는 이러한 Exploration-Exploitation Trade-off (탐사-이용 트레이드 오프)를 해결하기 위한 방법론을 제시하며, 해당 방법론이 높은 확률로 최적의 맞춤형 접근경로를 생성해 낼 수 있음을 증명하였다. 실험 결과들은 해당 방법론이 성공적으로 사용자 개개인의 Personal Comfort Field를 학습하고 그에 기반해 사용자에게 불편함을 가져다 주지 않는 접근 경로 생성에 성공하였음을 보인다.

둘째, 현재 상황에 담긴 문맥 정보의 파악을 어렵게 만드는 불확실성이 인간에 의해 발생될 경우, 로봇은 이를 해결하기 위한 행동을 생성할 수 있어야 한다. 예를 들어, 사람의 행동이나 언어 명령이 애매모호하게 원하는 바를 표현하게 될 경우, 이로 인해 발생되는 불확실성은 현재 로봇의 인식 구조 내부에도 불확실성을 야기할 수 있다. 이때 로봇은 발생된 인지불확실성을 감소시키기 위해 사람과 상호작용함으로써 추가적인 상황 정보를 얻어낼 수 있어야 하며, 얻어진 추가 정보에 기반해 주어진 명령을 더욱 성공적으로 수행할 수 있어야 한다. 상호작용에 기반해 불확실성을 감소시켜 주어진 업무를 성공적으로 처리하는 로봇의 이러한 능력은 해당 로봇에 대한 인간의 신뢰도를 향상시킬 수 있을 것이다. 이러한 두 번째 요소와 관련해, 본 학위 논문은 상황에 대한 로봇의 인식과 관련한 불확실성이 발생하였을 때 해당 불확실성을 감소시키기 위해 효율적으로 사람과 의사소통할 수 있게 하는 방법론을 제안한다. 제안된 방법론은 사람으로부터 특정 물체를 집어 올리라는 명령을 받아 수행하는 로봇에 적용된다. 먼저, 사람이 로봇에게 언어 명령을 내리면 로봇은 해당 명령이 가리키는 물체의 위치를 예측하는 heatmap을 생성하고, 현재 예측값이 갖는 불확실성과 관련된 heatmap 또한 생성한다. 만약 사람이 로봇에게 두 가지 이상으로 해석될 수 있는 애매모호한 언어 명령을 내리게 될 경우, 해당 방법론은 높아진 불확실성을 감소시키기 위해 적절한 질문을 사람에게 건넨다. 실제 로봇 실험을 포함한 실험결과들은 제안된 방법론이 상황이 가진 불확실성을 감소시키기에 적절한 질문을 사람에게 건넴으로써 효율적으로 상호작용할 수 있었음을 보인다.

셋째, 로봇은 인간이 내린 언어 명령 내부에 담겨있는 문맥적 정보를 파악해 해당 명령이 가리키는 적절한 행동을 수행할 수 있어야 한다. 사람이 로봇에게 여러 번 연속해서 명령을 내리게 될 경우, 이전에 내렸던 언어 명령 또는 로봇이 지금까지 해온 행동들은 현재 언어 명령이 어떻게 해석되어야 하는지에 영향을 미칠 수가 있다. 예를 들어, 사람이 로봇에게 ``다른 빨간 블럭을 방금 네가 움직인 블록 옆에 두어라." 라고 명령할 경우, 로봇은 어떤 빨간 블럭이 ``다른" 블럭인지, 그리고 어떤 블럭이 자신이 이전에 움직였던 블럭인지 인지하고 있어야 한다. 이러할 경우 로봇은 이전까지 사람과 이루었던 상호작용 정보들을 특징점 벡터로 만들어 저장해 명령 내부의 문맥적 정보를 파악할 수 있어야 하며, 해당 능력은 두 번째 요소와 유사하게 로봇에 대한 인간의 신뢰도를 향상시키는데 기여할 수 있을 것이다. 본 학위 논문은 이러한 세 번째 요소와 관련해, 문맥적 정보를 파악해야 제대로 이해할 수 있는 언어적 명령을 로봇이 해석할 수 있게 하기 위한 방법론을 제안한다. 제안된 방법론은 사람으로부터 특정 물체를 집은 뒤 특정 위치로 옮기라는 명령을 받아 수행하는 로봇에게 적용된다. 제안된 방법론은 심층 신경망 구조에 의존하고 있으며, 해당 신경망 구조는 문맥적 정보를 고려하지 않는 신경망, 문맥적 정보를 고려하는 신경망, 앞서 언급된 두 신경망에서 생성된 정보를 합쳐 물체를 조작하기 위해 사용될 수 있는 heatmap을 생성할 수 있는 신경망으로 구성되어있다. 입력되는 언어적 명령이 얼마나 문맥적 정보에 의존하고 있는지가 파악되면, 문맥적 정보를 고려하지 않는 신경망 및 문맥적 정보 고려 신경망에서 얻어진 정보를 적절히 조합해 물체 조작에 필요한 heatmap이 생성되게 된다. 실제 로봇 실험을 포함한 실험결과들은 제안된 방법론이 효과적으로 사람의 명령 내부에 담긴 문맥적 정보를 파악해 주어진 과제를 성공적으로 수행할 수 있었음을 보인다.

마지막으로, 언어, 음악 그리고 행동과 같은 인간의 다양한 표현 양식간의 관계를 배움으로써, 로봇은 현재 사람의 표현이 가진 문맥적 정보를 이해하고 그들의 행동양식에 기반해 사람과 의사소통 할 수 있어야 한다. 사람이 가지고 있는 의사소통 방식들간의 연관성을 이해하고, 그에 기반해 인간적인 움직임을 구현해 인간과 상호작용 할 수 있는 로봇의 능력은 해당 로봇에 대한 인간의 호기심과 애정을 향상시키는데 도움이 될 것이다. 이러한 마지막 요소와 관련해, 본 학위 논문은 사람의 언어로 서술된 인간의 행동을 구현할 수 있는 방법론과, 사람이 들려주는 어떤 노래에도 맞춰서 춤을 추는 동작을 생성할 수 있는 방법론을 제시한다. 해당 방법론들은 사람이 가진 다양한 의사소통 방식들인 언어, 음악 그리고 행동간의 관계를 학습해, 임의의 문장 또는 음악이 주어지면 그에 해당하는 로봇 행동을 생성할 수 있게 하여 조금 더 사람같이 행동할 수 있는 로봇 구현에 이바지한다. 언어-행동간의 연관성을 학습하는 첫 번째 방법론과, 음악-행동간의 연관성을 학습하는 두 번째 방법론은 모두 심층 신경망 기반의 기계 학습 기법을 응용해 구현되었다. 실험 결과들은 제안된 방법론들이 언어 및 음악 입력을 받게 되었을 때 적절한 로봇 행동을 생성하는데 성공하였음을 보인다.
Robots interacting with humans in the real world should be able to grasp the context of the current situation for generating an appropriate behavior. Context-aware behavior generation techniques will become an essential component for implementing future service robots which coexist and interact with real people. In this dissertation, four factors required to implement a context-aware service robot are introduced, and learning based methodologies for implementing each factor are proposed.

First, robots should be able to generate a personalized behavior. For generating a personalized behavior, robots need to be able to estimate characteristics of each user through several interactions. Regarding the first factor, this dissertation proposes a methodology for generating a personalized trajectory for approaching a human user by considering the shape of individual personal space. We propose a personal comfort field that can model human's personal space, and assumes that the proposed personal comfort field has a different shape for each user. To learn individual personal comfort field, a robot needs to navigate around the user to find the information about user's preferred approaching trajectory. At the same time, a robot needs to be able to generate the approaching trajectory based on the personal comfort field, which has been predicted based on user's nonverbal response toward a robot. This dissertation has solved this exploration-exploitation tradeoff, and proved that the proposed methodology is able to generate an optimal personalized approaching trajectory with high probability.

Second, robots should be able to generate a behavior to address the uncertainty caused by humans, which makes them difficult to understand the context of the current situation. For example, when human behavior or language command arises the uncertainty in robot's perception, a robot should be able to reduce that uncertainty by obtaining the additional information through interaction with humans. Regarding the second factor, this dissertation suggests a methodology that enables a robot to efficiently communicate with humans
by reducing the uncertainty via interaction. The proposed methodology is applied to a real robot that picks up the object that a person has ordered by language sentences. When a person gives a language command to a robot to pick up a specific object, the robot generates a heatmap which predicts the position of the referred object, and also generates a heatmap related to the uncertainty of current estimation. If a person gives a robot an ambiguous language command that can be interpreted more than one way, the proposed methodology generates an appropriate question for the person in order to reduce the current uncertainty. Experimental results including real robot experiments, show that the proposed methodology is able to interact with humans effectively by asking them the right question to reduce the uncertainty of the situation.

Third, robots should be able to grasp the contextual information contained within the human language commands, and perform the actions represented by the commands. When a human gives several orders in a row to a robot, the previous commands and what the robot have done can affect how the current language command should be interpreted. For example, when a human instructs a robot to ``Place another red block right next to the block that you just moved", the robot needs to understand which red block is the ``another" block, and which block is the one that a robot have moved earlier. Regarding this, this dissertation proposes a methodology that enables a robot to understand a human context when following a series of language instructions while making visual observations. We focus on the task that a robot is expected to build blocks according to the given language instructions. To tackle this problem, the structure of the proposed neural network is designed to abstract robot's previous visual and language experiences into a feature vector. Based on the feature, language command and image, the proposed network generates two heatmaps which indicate the location of the target object and where the object should be placed. Experimental results show that the proposed network can successfully interpret the given language command and observed image according to the understood context.

Finally, by learning the relationships between various means of human expression, such as language, music and action, robots should to be able to understand the contextual information of human expressions and express them through behaviors. Robot's ability to understand and interact with humans based on the various methods of communication such as language, behavior, and music, will help to improve human curiosity, bond and affection toward the robot. Regarding this factor, this dissertation presents a methodology which generates an action sequence described in human language, and another methodology which generates a dance sequence to the given music. These methodologies learn the relationships between language, music, and behavior, which are the various ways of human communication, and contribute to making a human-like robot by generating robot behaviors corresponding to the language sentence or music. The first method which learns the relationship between language and behavior, and the second method which learns the relationship between music and dance, are all based on the deep neural networks. Experimental results show that proposed methodologies succeed in generating a robot behavior which corresponds to given inputs from language and music domain.
Language
eng
URI
https://hdl.handle.net/10371/168042

http://dcollection.snu.ac.kr/common/orgView/000000160611
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share