Publications

Detailed Information

인텐트 분류 모델의 신뢰도 임계값이 인간-에이전트 소통에 미치는 영향 연구 : The Impact of Confidence Thresholds for Intent Classification on Human-Agent Communication: Focusing on Task-oriented Voice Agents
태스크 지향 음성 에이전트를 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

류명균

Advisor
이중식
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
인간-에이전트소통인텐트분류모델신뢰도임계값태스크지향음성에이전트소통실패
Description
학위논문(석사) -- 서울대학교대학원 : 융합과학기술대학원 지능정보융합학과, 2022. 8. 이중식.
Abstract
With the spread of smart speakers, task-oriented voice agents (voice apps) are also emerging. Task-oriented voice agents interact with the user through voice and provide specialized functions for specific domains. The domains of already released voice apps are various. The increase in task-oriented agents is inevitable in the future.
Communication breakdowns are exacerbated with task-oriented voice agents. Communication breakdowns are quite common in human-agent communication and have negative effects on the user. The fundamental causes are the invisible nature of voice interactions and incomplete artificial intelligence (AI). The task-oriented agent must accurately perform the requested task by the user in the specific domain. Therefore, the communication breakdowns with the task-oriented agent have more negative effects on the user.
The study on communication breakdowns from the perspective of NLU is needed. In AI-based agents, the NLU engine serves to understand the utterances of the user based on intent. Communication breakdowns are primarily caused by NLU (Natural Language Understanding) errors. However, existing researches focus on how to provide error prevention guidance and DM (Dialog Management). Therefore, to fill the gap between research and the cause of communication breakdowns, the approach from the perspective of NLU is needed.
This paper attempts to utilize the confidence threshold for the intent classification which classifies the users utterance into the intent. In voice interactions with AI agents, the confidence score is calculated when the users utterance is recognized. The system selects the intent with the highest confidence score. If the highest scoring intent has a confidence score greater than or equal to the confidence threshold, the agent provides the programmed response. In contrast, if the highest scoring intent has a confidence score lower than the confidence threshold, the agent returns the fallback response, such as Can you say that a different way? or I am not able to understand.. In other words, the confidence threshold is directly related to the agents performance and response propensity.
This paper aims to explore the impact of the confidence threshold on human-agent communication. The user identifies the agents smartness through conversing with the agent, and then adapts their utterances for the agent. In this process, the responses from the agent are important as evidence. In other words, the confidence threshold would make a difference in human-agent communication. To explore this, I conduct 1) a preliminary study for prototyping and identifying the distribution of the confidence scores, and 2) an experiment to explore the impact of the confidence threshold on human-agent communications.
In the preliminary study, I conducted a study to find user needs when using a voice agent for banking services and a study to identify the distribution of the confidence scores. In the user needs study, participants (n=10) are asked to use the banking agent that is run on the WOZ (Wizard of Oz) method. The utterance data was collected, and then open-coded to determine the main intents of the banking agent. Then, the second study is conducted with the prototype built on the intents. The utterance data was also collected from participants(n=10) who were asked to use the prototype. As a result, differences in response propensity between the agents were discovered, when the confidence thresholds are 0.3, 0.5, and 0.7.
In the experiment, I recruited participants (n=30) and ask them to use the prototype with the different confidence thresholds. The participants are divided into three groups considering the frequency of smart speaker use. Four sets of tasks consisting of In-Scope (IS) tasks and Out-of-Scope (OOS) tasks are assigned to the participants. When the task is completed, the participant fills out a survey on usability and intelligence of the agent. The designed independent variables are the confidence threshold (3, between-subject) x the frequency of smart speaker use (2, between-subject) x the set (2, within-subject).
Through the experiment, 988 utterance data and survey data were collected and then analyzed in terms of agents response, users utterance, and users perception. First of all, in terms of agents response, the confidence threshold had a significant effect on the communication success rate when exceeding a certain level. The communication success rate of the 0.7-agent was lower than the others (0.3=72%, 0.5=67%, 0.7=45%) in IS tasks, but higher than the others in OOS tasks (0.3=24%, 0.5=35%, 0.7=94%). The cause of communication breakdowns became uniform as the confidence threshold was higher. Comparing to the other agents, the 0.7-agent had more communication breakdowns caused by NLP (Natural Language Process) error (0.3=56%, 0.5=62%, 0.7=83%). Secondly, in terms of users utterance, communication with agents with low confidence thresholds was unnecessarily prolonged. In IS tasks, the number of users utterances was the lowest for the 0.5-agent and the highest for the 0.7-agent (0.3=32.8, 0.5=29.3, 0.7=40.1). However, there was not a significant effect between the 0.3-users and the 0.7-users. Considering the communication of the 0.3-agent was higher than the 0.7-agent, it suggests that the user had superfluous communication with the 0.3-agent. All the users employed the Rephrase the most to overcome the communication breakdowns, and the rate of employing the Repeat and the Quit depending on the confidence threshold. The 0.7-users employed the Quit more(0.3=16%, 0.5=23%, 0.7=27%), and the others employed the Repeat more(0.3=26%, 0.5=29%, 0.7=16%). Lastly, in terms of users perception, the confidence threshold and the frequency of smart speaker use did not have a significant effect.
This paper presents a novel approach using the confidence threshold to improve human-agent communication. It presents the possibility of the confidence threshold to improve human-agent communication and contributes as an exploratory study that opens the new area. In addition, based on the utterance data, it was analyzed from various points of view. This research can serve as a guide for researchers and practitioners who are interested in the confidence threshold. Lastly, this paper also suggests what points should be considered to utilize the confidence threshold in future research.
스마트 스피커가 확산됨에 따라 태스크 지향 음성 에이전트(보이스 앱)도 등장하고 있다. 태스크 지향 음성 에이전트는 사용자와 음성으로 인터랙션하고, 특정 도메인에 특화된 기능을 제공하며 스마트폰의 앱과 같은 역할을 한다. 다양한 도메인에서 출시되고 있고, 앞으로 태스크 지향 음성 에이전트의 증가는 불가피하다.
음성 에이전트의 소통 실패 문제는 태스크 지향 음성 에이전트 사용에서 더 악화된다. 소통 실패는 인간-에이전트 소통에서 흔하게 나타나는 현상으로 사용자에게 부정적인 영향을 미친다. 소통 실패의 근본적인 원인은 보이지 않는 음성 인터랙션의 특성과 불완전한 인공지능에 있다. 이에 더해 태스크 지향 음성 에이전트의 목표는 한정된 영역에서 사용자의 요청을 정확히 수행하는 것이다. 그러므로 태스크 지향 음성 에이전트의 소통 실패는 사용자에게 더 부정적인 영향을 미칠 수밖에 없다.
인간-에이전트의 소통 실패에 대해 NLU(Natural Language Understanding) 차원의 접근이 필요하다. NLU는 인공지능에 기반하고 있는 에이전트에서 사용자 발화의 이해를 담당하는 역할을 한다. 이와 같은 NLU에서 발생하는 에러가 소통 실패의 주요 원인인다. 하지만 기존 연구는 대부분 사용법 가이드와 DM(Dialog Management)에 초점이 맞춰져 있다. 따라서 소통 실패가 발생하는 NLU 차원의 접근을 통해 간극을 줄일 필요가 있다.
본 연구에서 인텐트 분류 모델의 신뢰도 임계값(confidence threshold)을 활용하고자 한다. 인텐트 분류 모델은 NLU의 일부로 사용자의 발화를 인텐트로 분류한다. 사용자의 발화가 인식되면, 신뢰값(confidence score)이 계산되고, 가장 높은 신뢰값을 갖는 문장의 인텐트와 매칭된다. 신뢰도 임계값보다 신뢰값이 높으면 매칭된 인텐트로 준비된 답변을 제공한다. 반대로, 신뢰값이 낮으면 재발화를 요청하거나 할 수 없음을 표하는 fallback 답변을 제공한다. 이와 같은 역할을 하는 신뢰도 임계값은 에이전트의 성능과 응답 성향에 직접적으로 영향을 미치게 된다.
본 연구에서 신뢰도 임계값이 인간-에이전트 소통에 미치는 영향을 탐색하고자 한다. 사용자는 에이전트와의 대화를 통해 에이전트의 지능을 파악하고 발화 형태를 조정해 나간다. 이때, 에이전트의 응답이 중요한 역할을 하기 때문에, 신뢰도 임계값의 변화는 인간-에이전트 소통에 차이를 만들 것이다. 이를 탐색하기 위해, 1) 프로토타입 제작과 신뢰도 임계값 선정을 위한 예비조사, 2) 신뢰도 임계값이 인간-에이전트 소통에 미치는 영향을 탐색하는 본 실험을 진행한다.
예비 조사에서는 은행 음성 에이전트에 대한 사용자 니즈 조사와 신뢰값 분포 조사를 진행했다. 사용자 니즈 조사는 참여자(n=12)에게 WOZ(Wizard of Oz) 방법으로 구현한 은행 에이전트를 사용하도록 요청했다. 이를 통해 수집한 발화 데이터를 오픈 코딩하여 은행 에이전트의 주요 인텐트를 도출했다. 그다음, 신뢰값 분포 조사는 도출된 인텐트를 프로토타입으로 구현하여 진행했다. 참여자(n=10)에게 프로토타입 사용을 요청하여 발화 데이터를 수집했다. 수집한 발화 데이터의 신뢰값 분석 결과, 신뢰도 임계값 0.3, 0.5, 0.7에서 에이전트의 응답 성향에 차이가 발생함을 발견했다.
본 실험은 참여자(n=30)를 모집하고, 서로 다른 신뢰도 임계값을 갖는 프로토타입을 사용하도록 했다. 참여자는 스마트 스피커 사용 빈도를 고려하여 세 그룹으로 나눴다. 태스크는 In-Scope(IS) 태스크와 Out-of-Scope(OOS) 태스크를 혼합한 4개의 세트를 부여했다. 태스크 수행이 끝나면 에이전트의 사용성과 지능에 대한 설문 조사를 요청했다. 실험의 독립 요인은 신뢰도 임계값(3, 집단 간 요인) x 스마트 스피커 사용빈도(2, 집단 간 요인) x 세트(2, 집단 내 요인)이다. 종속 요인은 소통 성공률, 소통 실패 원인, 사용자의 발화 수, 사용자의 소통 실패 대응 전략, 에이전트의 사용성과 지능이다.
본 실험을 통해 수집된 988개의 발화 데이터와 설문 조사 데이터를 분석했다. 분석은 에이전트의 응답 측면, 사용자의 발화 측면, 사용자의 인식 측면에서 진행했다. 첫 번째, 에이전트의 응답 측면에서, 신뢰도 임계값이 일정 수준을 넘어가면, 소통 성공률에 차이가 나타났다. IS 태스크에서 0.7-에이전트의 소통 성공률이 다른 에이전트(0.3=72%, 0.5=67%, 0.7=45%)에 비해 낮았고, OOS 태스크에서는 0.7-에이전트의 소통 성공률이 높았다(0.3=24%, 0.5=35%, 0.7=94%). 반면, 0.3-에이전트와 0.5-에이전트 사이에는 유의미한 차이가 나타나지 않았다. 소통 실패 원인은 신뢰도 임계값이 높을수록 획일화됐다. 0.7-에이전트의 소통 실패 원인은 NLP에 의한 에러 비율이 상대적으로 높았다(0.3=56%, 0.5=62%, 0.7=83%). 두 번째, 사용자의 발화 측면에서 보면, 신뢰도 임계값이 낮은 에이전트와의 소통은 불필요하게 길어졌다. IS 태스크에서 사용자의 발화 수는 0.5-사용자가 가장 적고, 0.7-사용자가 가장 많았다(0.3=32.8회, 0.5=29.3회, 0.7=40.1회). 0.7-사용자와 0.3-사용자는 발화 수의 유의미한 차이는 나타나지 않았다. 0.3-에이전트의 소통 성공률이 0.7-에이전트보다 유의미하게 높은 것을 고려하면, 0.3-사용자의 불필요한 소통 과정이 많음을 시사한다. 소통 실패에 대한 사용자의 대응 전략은 모든 그룹에서 발화 변환 전략을 가장 많이 취하고, 신뢰도 임계값에 따라 재발화와 포기 전략을 취하는 비율은 다르게 나타났다. 다른 에이전트 사용자에 비해 0.7-에이전트 사용자는 포기의 비율이 높았고(0.3=16%, 0.5=23%, 0.7=27%), 다른 사용자는 재발화의 비율이 높았다(0.3=26%, 0.5=29%, 0.7=16%). 사용자의 인식 측면에서 신뢰도 임계값을 포함한 모든 요인은 유의미한 차이를 만들지 못했다.
본 연구는 인간-에이전트의 소통 개선을 위해 신뢰도 임계값을 활용한 접근 방법을 제시했다. 인간-에이전트 소통 개선을 위해 신뢰도 임계값 활용 가능성을 제시하고, 새로운 분야를 여는 탐색적 연구로서 의의를 갖는다. 또한 이를 발화 데이터를 기반으로 다각도에서 분석했다. 이는 신뢰도 임계값을 활용하고자 하는 연구자와 산업 종사자에게 가이드 역할을 한다는 점에서 의의가 있다. 마지막으로, 신뢰도 임계값을 활용하는 향후 연구에서 고려해야 할 점에 대해 제언했다는 점에서 의의가 있다.
Language
kor
URI
https://hdl.handle.net/10371/188302

https://dcollection.snu.ac.kr/common/orgView/000000172388
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share