Publications

Detailed Information

Eyes-free 음성 사용자 인터페이스의 상호작용 사용성을 개선시키는 청각 표상 연구
상태 정보 전달과 턴테이킹을 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

윤종묵

Advisor
이중식
Major
융합과학기술대학원 융합과학부(디지털정보융합전공)
Issue Date
2019-02
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 융합과학기술대학원 융합과학부(디지털정보융합전공), 2019. 2. 이중식.
Abstract
음성 사용자 인터페이스(Voice User Interface, VUI)는 음성 인식 기술을 바탕으로 인간의 말에서 의미를 분석하여 인간-기계 상호작용을 가능하게 하는 인터페이스 방식이다[1]. VUI는 음성 인식 기술의 발전으로 빠르게 보급되었고, 이에 따라 다양한 기기에 VUI가 적용되어 이제 어디서든 VUI를 사용할 수 있게 되었다[5]. 이처럼 VUI가 다양한 기기에 적용되면서 VUI를 사용하는 장소와 맥락도 다양해졌고, 다양해진 장소, 맥락에 따라 사용자가 VUI와의 상호작용에서 사용할 수 있는 감각 양상도 달라진다. 특히 운동, 요리, 운전과 같은 상황에서는 사용자가 시각 정보를 사용하기 힘든 특징을 가지며, VUI가 탑재된 기기가 멀리 있거나, 보기 힘든 곳에 있을 경우도 시각 정보를 사용하기 힘들어진다. 즉, VUI 사용 상황에서 시각 정보를 사용하기 힘든 Eyes-free VUI 사용 상황이 등장한 것이다.
VUI는 GUI(Graphic User Interface)와 다르게 대화를 기반으로 구동되는 인터페이스이다. 그렇기 때문에 대화를 원활하게 하기 위해서는 명확한 턴테이킹(Turn-taking)이 이뤄져야 한다. 원활한 턴테이킹을 위하여 인간은 언어뿐만 아니라 몸짓, 눈빛과 같은 비언어적 소통을 통해 자신의 상태 정보를 전달하고, 대화가 중첩되지 않게 조절한다[74]. VUI의 경우, VUI 상태 정보를 주로 시각 정보를 이용하여 전달하여 인간과 대화를 보조한다. 하지만 Eyes-free VUI는 청각 정보만 사용할 수 있다는 한계점을 가진다. 또한, 현재 VUI의 VUI 정보 전달 방식은 화면 사용을 전제하고 있으며, 음성만 사용하는 VUI에 대한 구체적인 가이드라인은 없는 상황이다.
이를 위해, 우선 Eyes-free VUI에서 발생하는 문제를 찾기 위하여 VUI 사용 경험이 있는 참가자를 대상으로 시각큐를 가지고 있는 VUI와 Eyes-free VUI의 사용을 비교하는 실험을 진행하였다. 그 결과, Eyes-free VUI가 시각큐가 있는 VUI에 비하여 턴테이킹 성공률, VUI 정보 전달률이 낮다는 것을 검증하였다. 또한, 실험을 통해 Eyes-free VUI 사용에서 사용자가 VUI 상태에 적합하지 않은 행동을 하는 것을 발견하였고, 이를 사용자의 세부 행위를 기준으로 10개로 분류하였다. 또한, 턴테이킹 여부와 VUI 상태 정보 전달 여부를 이용하여 VUI 상호작용을 4가지 유형으로 분류하고,
턴테이킹 성공 여부를 구분하였다.
두 번째 실험에서는 선행 연구를 기반으로 선정한 5개의 청각 피드백이 Eyes-free VUI 사용의 사용성을 증진하는지
검증하였다. 실험은 VUI 사용 경험이 있는 참가자를 대상으로 진행하였다. 그 결과, 지속음이 단절음보다 턴테이킹 성공률, VUI 상태 전달률이 높았다. 그중 전화 대기음은 시각 정보를 사용하는 VUI보다 VUI 상태 전달률, 턴테이킹 성공률, VUI 상호작용 성공률이 좋았다.
본 연구는 턴테이킹의 관점으로 Eyes-free VUI의 상호작용을 분석했다는 점에서 학술적 의의가 있다. 또한, 이전
연구에서 이용하지 않은 입력 실패 발화를 포함한 모든 사용자 발화를 이용하여 VUI 상호작용을 분석했다는 점에서 학술적 의의가 있다. 마지막으로 VUI 상태 정보 전달 여부와 턴테이킹의 성공 여부를 기준으로 VUI 상호작용 유형을 분류했다는 점에서 학술적 의의가 있다. 또한, 현재 사용되는 Eyes-free VUI에 적용할 수 있는 청각 피드백을 제안함으로써 산업 기술적으로도 의의가 있다.
Voice User Interface(VUI) is an interface method that enables human-machine interaction by analyzing meanings in human speech based on voice recognition technology[1]. Advances in voice recognition
technology have enabled the rapid spread of the VUI, and its introduction to a wide range of devices makes it possible to use it anywhere[5]. With the application of the VUI to a variety of devices, the locations and
contexts of using the VUI also vary. And the type of sensory modalities that users can use in a VUI interaction varies depending on where, in context, and on the device. This leads to situations in which certain
sensory modalities are difficult to use in certain situations. Especially in situations such as sports, cooking, and driving, it is difficult for users to use visual information. Or, if a device equipped with a VUI is far away or
hard to see, visual information becomes difficult to use. That is, Eyes-free VUI situation that visual information was difficult to use has emerged.
The VUI is a dialogue-based interface unlike the GUI(Graphic User Interface). Therefore, clear turn-taking is necessary to facilitate dialogue. For smooth turn-taking, users convey their status information through non-verbal communication, such as body language, and eye contact, and control conversations not to overlap[74]. In the case of the VUI, its state information is communicated primarily through visual information to assist interaction. However, the Eyes-free VUI has a limitation that only auditory information is available. In addition, current way of VUIs communication assumes that the screen is used, and there are no specific guidelines for speech only.
First, I conducted an experiment with participants who had used the VUI to find problems with the Eyes-free VUI. The experiment compared the use of the VUI with using visual information and the Eyesfree
VUI. As a result, the Eyes-free VUI proved that the Turn-Taking Success Rate and the VUI Status Information Transmission Rate were lower than the VUI with visual information. In addition, during the use of the Eyes-free VUI, a user was found to have failed turn-taking due to an action that was not appropriate for the VUI state. The types of turn-taking failures were then classified into 10 based on the user's detailed actions. The VUI interactions were divided into four types based on whether turn-taking was successful or not and whether VUI status information transmission was successful or not.
In the second experiment, five selected auditory feedback based on the prior study was verified to improve usability of Eyes-free VUI. The experiment was conducted on participants who have experiences using the
VUI. As a result, the continuous sound was better than the discontinuous
sound, the turn-taking success rate and VUI status information transmission rate. Telephones stand by sound had better VUI status information transmission rate, turn-taking success rate, and VUI interaction success rate than the VUI that uses visual information.
This study has three academic significance. First, it analyzed the interaction of the Eyes-free VUI from a turn-taking perspective. Second, the VUI interaction was analysed using all user utterance, including utterances not entered on the device and not used in previous studies. Finally, the types of VUI interactions were classified based on whether or not the status of the VUI was delivered and whether the turn-taking was successful. The study also contributes to advances in industrial technology by proposing audible feedback applicable to the currently used Eyes-free VUI.
Language
kor
URI
https://hdl.handle.net/10371/151417
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share