
Detailed Information

음성 인터페이스 기반 음악 서비스에서의 쿼리 유형 별 특성 연구 : Study on Query Types of VUI-based Music Streaming Services
사용자가 추천 스트림에 기대하는 요소를 중심으로

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
음성 인터페이스음악 추천 스트림음악 쿼리
학위논문(석사) -- 서울대학교대학원 : 융합과학기술대학원 지능정보융합학과, 2023. 2. 이중식.
Music service is a core domain in Voice User Interface (VUI). According to the survey, music is one of the most used services by smart speaker users, and the frequency of use is also the highest. Thus, the music experience can affect entry into or exit of the voice user interface. It is necessary to understand the music experience of the voice user interface only.

In voice user interface, a single query triggers an auto-generated music stream. Unlike mobile interface, search and playback occur simultaneously without an exploration step. That is, by one query, the top results and related songs are played as a stream.

To understand the music experience of voice user interface, it is necessary to understand the query input by users. Depending on the type of query, the user expectations for the recommendation are different (e.g., Play calm jazz vs. Play music). The gap between user expectations and actual results can affect the experience. In a positive case, it may lead to serendipity to discover new songs. But in a negative case, it may lead to distrust of recommendations or deterioration in the use of voice user interface.

This study aims to understand the types of queries in the music domain of voice user interface, and to identify the elements that users expect from recommendation streams for each type of query. This study conducted two major investigations.

The purpose of the primary investigation is to understand the types of queries used in the music domain of voice user interface. 2,723 music-related logs were collected from 9 smart speaker users, and music queries were classified based on previous study. As a result, music queries were largely classified into three categories: 1) SQ (Specific Query), request by song or artist, 2) NSQ (Non-Specific Query), no criteria presented, 3) DQ (Descriptive Query), mood or genre description. As a result of log analysis, the number and timing of re-queries were different for each query type. As a result of the log-based interview, intention and satisfaction were different depending on the query type.

The purpose of the secondary investigation is to find out what users expect from recommendation for each type of query. 27 participants were given an ESM(Experience Sampling Method) task that triggers music using voice user interface for five days, and expectations of music recommendation were collected on a 5-point scale through a questionnaire. Survey responses were collected for a total of 290 queries, and the following characteristics were derived: 1) SQ – Songs with high relevance within the expectation were desired, and satisfaction was high. 2) NSQ, DQ – Novel, diverse, serendipitous songs were desired. Satisfaction was low.

Based on the results of this study, the following was discussed. First, the music experience of voice user interface is significantly different in three points — background listening, absence of visibility, possibility of recognition error. This allows users to strategically select queries. Second, based on the user expectations, we propose a design method for recommendation streams for each query type.

This study identified the types of music queries used in voice user interface, and confirmed user expectations of recommendation by query type. In addition, we revealed the characteristics of music queries and experiences in voice user interface, and suggested music recommendation direction for each query type.
음성 인터페이스에서 음악 서비스는 핵심적인 도메인이다. 조사에 따르면, 음악은 스마트 스피커 사용자들이 가장 일상적으로 사용하는 서비스 중 하나이며 시간 당 사용 빈도 역시 가장 높게 나타난다. 지배적으로 사용되는 도메인인 만큼, 음악 경험은 음성 인터페이스의 입문 또는 이탈에도 영향을 줄 수 있다. 따라서 음성 인터페이스만의 음악 경험을 이해해야 한다.

음성 인터페이스에서의 음악은, 하나의 쿼리를 트리거하면 자동 생성된 음악 리스트가 연속으로 재생되는 형태이다. 기존의 모바일 인터페이스가 검색 (쿼리 입력) > 탐색 (결과 리스트 탐색) > 재생 (곡 클릭)의 순서로 이어지는 것과 달리, 음성 인터페이스에서는 탐색 단계가 존재하지 않으며 검색과 재생이 동시에 이루어진다. 즉 하나의 쿼리에 의해 상위 결과와 그 연관 곡들이 스트림 형태로 출력된다.

따라서 음성 인터페이스만의 음악 경험을 파악하기 위해서는 사용자가 입력하는 쿼리를 이해해야 한다. 쿼리 형태에 따라, 사용자가 결과에 대해 예상하는 바가 달라질 것이기 때문이다. (e.g., 신나는 재즈 틀어줘 VS 음악 틀어줘) 이때, 사용자가 결과에 대해 가지는 기대치와 실제 검색 결과의 간격이 크면, 경험에 영향을 미칠 수 있다. 긍정적인 경우 새로운 노래를 발굴하는 세렌디피티로 이어지기도 하지만, 부정적인 경우에는 추천에 대한 불신이나 음성 인터페이스 사용 저하로 이어질 가능성이 있다.

본 연구에서는 음성 인터페이스의 음악 도메인에서 사용되는 쿼리의 유형을 이해하고, 쿼리 유형 별로 사용자가 기대하는 추천 스트림을 파악하고자 한다. 이를 바탕으로, 음성 인터페이스 음악 추천 방식에의 디자인 함의점을 제시하고자 한다. 본 연구는 크게 두 개의 조사를 진행하였다.

1차 조사의 목적은 음성 인터페이스의 음악 도메인에서 사용되는 쿼리의 유형을 이해하는 것이다. 스마트 스피커 사용자 9명의 3개월 치 음악 관련 로그 2,723개를 수집한 후, 선행 연구를 기반으로 음악을 트리거 하는 쿼리를 유형화하였다. 그 결과 음악 쿼리는 크게 세 가지로 분류되었다: 1) SQ - Specific Query, 곡이나 아티스트로 요청, 2) NSQ - Non-Specific Query, 기준을 제시하지 않음, 3) DQ - Descriptive Query, 분위기나 장르를 묘사. 로그 분석 결과, 쿼리 유형 별로 재쿼리를 시도하는 횟수와 시점이 다르게 나타났다. 로그 기반 인터뷰 결과, 쿼리 유형에 따라 발화 의도와 만족도가 서로 다르게 나타났다.

2차 조사의 목적은 쿼리 유형에 따라 사용자가 추천 결과에 대해 가지는 기대를 심층적으로 파악하는 것이다. 5일 동안 27명의 참여자에게 음성 인터페이스로 음악을 트리거하는 ESM 태스크를 부여하여, 설문을 통해 음악 추천에 대한 기대와 인식을 5점 척도로 수집하였다. 총 쿼리 290개에 대한 기대와 인식 설문이 수집되었으며, 분석 결과 다음의 특성이 도출됐다: 1) SQ - 예상 내의 연관성 높은 곡들을 기대하며 만족도가 높음. 2) NSQ - 새로움, 다양성, 의외성 높은 곡들을 기대하며 만족도는 낮으나 결과에 관용적임. 3) DQ - 새로움, 다양성, 의외성 높은 곡들을 기대하며 만족도가 낮고 결과에 엄격함.

본 연구의 결과를 토대로, 다음과 같은 논의를 진행하였다. 첫째, 음성 인터페이스의 음악 경험이 기존과 크게 세 지점에서 다르며 (배경적 청취, 일람성 부재, 인식 오류 가능성), 이에 따라 사용자들의 쿼리 선택이 전략적으로 달라진다. 둘째, 사용자들이 기대하는 요소를 토대로 쿼리 유형 별 추천 스트림의 설계 방식을 제언한다.

본 연구는 음성 인터페이스 기반 음악 도메인에서 사용되는 쿼리의 유형을 파악하고, 추천에 대한 사용자의 기대와 인식을 쿼리 유형 별로 확인하였다. 또한 음성 인터페이스 기반 음악 경험과 쿼리의 특성을 밝히고, 쿼리 유형 별 음악 추천 방식을 제언하였다.
Files in This Item:
Appears in Collections:


Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.
