Publications

Detailed Information

오디오 매칭을 위한 Siamese 그래프 임베딩의 개선 : Improvement of Siamese Graph Embedding for Audio Matching

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

송창헌

Advisor
김형주
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
오디오 매칭오디오 컨텐츠그래프 임베딩Siamese 네트워크audio contentaudio matchinggraph embeddingSiamese networ
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 컴퓨터공학부, 2021. 2. 김형주.
Abstract
매주 새로운 음악이 발표되고 사용자는 검색을 통해 일부 음악에 노출되고 선택하게 된다. 따라서 음악 검색은 음악 소비에 있어 중요한 역할을 한다. 메타데이터나 태그를 활용하는 기존 음악 라이브러리에서의 검색은 사람이 개입하여 태그를 삽입해야 하는 문제가 있다. 이를 위한 방법으로 오디오 컨텐츠를 활용하여 자동으로 태그를 생성하거나, 검색에 이용하는 방식이 사용되었다. 오디오 컨텐츠를 이용한 음악 검색의 분야 중 하나인 오디오 매칭에서는 신경망을 이용하여 음악 또는 가수의 잠재적 표현을 학습하는 연구가 진행되었다. 이때, 어쿠스틱 피처를 신경망의 입력으로 이용하게 되면, 어쿠스틱 피처 구성을 위해 사용한 시간 해상도에 따라 시간 차원의 변화 폭이 커지는 문제가 발생한다. 본 논문에서는 이를 해결하기 위해 어쿠스틱 피처를 기반으로 그래프를 구성하고, 그래프 임베딩 기법을 활용한 오디오 컨텐츠 기반 임베딩 방법을 제안한다. 제안하는 모델은 Siamese 네트워크의 구조를 가지며, 두 음악 잠재 벡터의 차이를 이용하여 두 음악 사이의 유사도를 학습하도록 한다. 이를 통해 새로운 음악에 관한 유사도 결과도 추가 학습 없이 도출할 수 있도록 한다. 마지막으로 실험을 통해 기존 연구 대비 제안하는 방식의 효용성을 입증하였다.
New music is released every week, and users are exposed to and selected some music through search. Therefore, music search plays an important role in music consumption. Searching in an existing music library using metadata or tags has a problem in that the expert knowledge is necessary to insert a tag. As a method for this, audio content based approach are used.
In the case of audio matching, which is one of the fields of content-based music retrieval, research has been conducted to learn latent features of tracks or artists using a neural network. When using an audio feature as an input to a neural network as in previous studies, a problem arises in that the temporal dimension increases according to the temporal resolution. To solve this problem, this paper constructs a graph that based on audio features, and proposes an audio content-based embedding method using the graph embedding technique. The proposed model has the structure of a Siamese network, and uses the difference between two music latent vectors to learn the scoring of similarity between two music. Through this, similarity score for unseen music can be derived without additional learning. Finally, experiments show the effectiveness of the proposed method compared to existing studies.
Language
kor
URI
https://hdl.handle.net/10371/175440

https://dcollection.snu.ac.kr/common/orgView/000000163842
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share