Browse

오디오 쿼리 기반 음원 분리 연구
AUDIO QUERY-BASED MUSIC SOURCE SEPARATION

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
이지환
Advisor
이교구
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
오디오 쿼리음원 분리
Description
학위논문 (석사) -- 서울대학교 대학원 : 융합과학기술대학원 디지털정보융합학과, 2020. 8. 이교구.
Abstract
최근 몇 년 동안, 음악 음원 분리는 음악 정보 검색 분야에서 가장 활발하게 연구
가 이루어진 분야 중 하나이다. 또한 딥 러닝의 발전으로 인해 음악 음원 분리 성능은
큰 폭으로 향상했다. 그러나 대부분의 이전 연구들은 단일 악기 또는 보컬, 드럼, 베
이스와 같은 제한된 수의 음원을 분리하는데 그쳤으며, 확장성에 대한 연구는 많이
이루어지지 않았다.
본 연구에서는 오디오 쿼리 기반 음원 분리를 위해 목표 신호의 수 또는 종류에
관계없이 쿼리 신호로부터 소스의 정보를 인코딩할 수 있는 네트워크를 제안한다.
제안된 기법은 쿼리 인코딩 네트워크와 음원 분리 네트워크로 구성된다. 오디오 쿼
리와 합성 음원이 주어지면 쿼리 인코딩 네트워크는 쿼리를 잠재 공간으로 인코딩
하고, 음원 분리 네트워크는 잠재 벡터에 의해 컨디셔닝된 마스크를 출력하며, 이
마스크는 합성 음원에 곱해져 음원을 분리한다. 또한 음원 분리 네트워크는 학습
샘플에서 얻어진 잠재 벡터를 사용하여 오디오 쿼리가 주어지지 않은 환경에서도
동작할 수 있다.
제안한 기법의 평가를 위해 MUSDB18과 Slakh을 이용하며, 실험 결과는 제안된
기법이 단일 네트워크로 여러 소스를 분리할 수 있음을 보인다. 또한, 잠재 공간에
대한 분석을 통해 제안된 기법이 잠재 벡터의 보간을 통해 연속적인 출력을 생성할
수 있음을 보인다
In recent years, music source separation has been one of the most intensively studied research areas in music information retrieval. Improvements in deep learning lead
to a big progress in music source separation performance. However, most of the previous studies are restricted to separating a few limited number of sources, such as vocals,
drums, bass, and other.
In this study, we propose a network for audio query-based music source separation
that can explicitly encode the source information from a query signal regardless of the
number and/or kind of target signals. The proposed method consists of a Query-net
and a Separator: given a query and a mixture, the Query-net encodes the query into the
latent space, and the Separator estimates masks conditioned by the latent vector, which
is then applied to the mixture for separation. The Separator can also generate masks
using the latent vector from the training samples, allowing separation in the absence
of a query.
We evaluate our method on the MUSDB18 dataset and the Slakh dataset, and experimental results show that the proposed method can separate multiple sources with a
single network. In addition, through further investigation of the latent space we demonstrate that our method can generate continuous outputs via latent vector interpolation.
Language
kor
URI
https://hdl.handle.net/10371/170302

http://dcollection.snu.ac.kr/common/orgView/000000163442
Files in This Item:
Appears in Collections:
Graduate School of Convergence Science and Technology (융합과학기술대학원)Dept. of Transdisciplinary Studies(융합과학부)Theses (Master's Degree_융합과학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse