Publications

Detailed Information

유연한 신경망 기반 신디사이저를 위한 시간적 동역학 분리 : Disentangling Temporal Dynamics for Flexible Neural Net-Based Synthesizer

DC Field Value Language
dc.contributor.advisor이교구-
dc.contributor.author유예나-
dc.date.accessioned2020-05-07T05:28:28Z-
dc.date.available2020-05-07T05:28:28Z-
dc.date.issued2020-
dc.identifier.other000000160682-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000160682ko_KR
dc.description학위논문(석사)--서울대학교 대학원 :융합과학기술대학원 융합과학부(디지털정보융합전공),2020. 2. 이교구.-
dc.description.abstractModern commercial synthesizers are the most complicated musical devices for sound design. This research provides users 3 independent parameters which are pitch, instrument, and audio query, which doesnt need much knowledge about sound design. Audio query is needed for extracting the temporal dynamics of input audio, and instrument gives spectral envelope information. Previous neural synthesizers doesnt provide timbre latent space where users can control time and frequency independently. Independent control for timbre with respect to time and frequency makes it possible to synthesize more various timbre and improve reconstruction performance further, which is the first contribution of this paper.

In the second, previous neural synthesizers doesnt verify how expressive their model is with both of acoustic and synthetic sounds.
-
dc.description.abstract현대 상업용 신디사이저는 복잡한 조작법으로 인해 비전문가들이 사용하기 매우 어렵다. 따라서, 본 연구는 악기 종류와 참고할 만한 오디오 쿼리(Query)를 입력하여 사용자가 사운드 디자인 지식을 알지 못하더라도, 다양한 음색을 만들도록 하였다. 음색은 스펙트럼 포락선과 시간적 동역학에 대해 학습된 각각의 독립된 잠재공간을 제공한다. 기존의 뉴럴 신디사이저는 음색을 시간과 주파수에 대해서 독립적으로 제어할 수 없었다. 그러나 본 연구에서는 이를 가능하게 하여 더 넓은 차원에서 다양하게 음색을 합성 할 수 있음을 보였고, 더 나아가 오디오 복원 성능이 향상되도록 한 것이 이 논문의 첫 번째 기여다.

두 번째로는 기존 음높이와 음색을 따로 제어할 수 있는 선행 연구들은 어쿠스틱 악기만 혹은 신디사이저 소리만 가지고 음색에 대한 잠재 공간을 학습했지만, 본 연구에서는 합성된 오디오의 표현력을 늘리기 위해, 어쿠스틱과 신디사이저 소리를 모두 네트워크 학습에 사용했다.

본 연구에서는 다양한 음색을 생성하는 뉴럴 신디사이저를 구현하기 위해서, 오디오에서 시간적 동역학 정보를 분리시켜 두 잠재공간에서 사운드 디자인이 가능하도록 했다.
-
dc.description.tableofcontents제 1 장 서론 1
제 1 절 연구 배경 1
제 2 절 연구 목표 5

제 2 장 이론적 배경 6
제 1 절 스펙트럼 포락선과 시간적 동역학 6
제 2 절 정보 분리 연구 8
1. 이미지 및 언어처리 분야의 정보 분리 연구 8
2. 오디오 분야의 정보 분리 연구 9
제 3 절 오디오 합성 연구 11
1. 음성 합성 TTS 연구 11
2. 악기 합성 연구 13
3. 한계점 및 개선방안 19

제 3 장 제안 시스템 20
제 1 절 사용자 파라미터 정의 20
제 2 절 학습 데이터 20
제 3 절 베이스라인 모델과 SE 컨디셔닝 구조 21
제 4 절 제안 시스템 23
1. 시스템 다이어그램 23
2. 시스템 네트워크 구조 24
3. 네트워크 학습 25

제 4 장 실험 결과 및 분석 26
제 1 절 오디오 복원 성능 26
1. 오디오 복원력 정성분석 26
2. TD 추출기의 출력단 크기에 따른 복원 성능 28
3. 오디오 복원력 정량비교 29
제 2 절 오디오의 다양성 분석 31
1. 시간에 따른 시간적 동역학 정보 변환 31
2. 시간적 동역학 정보의 잠재공간 32
3. 기준모델의 악기에 대한 잠재공간 35
4. 기준모델과 제안 모델의 잠재공간 37
제 3 절 사용자 파라미터 간의 독립성 분석 38
1. 음높이와 시간적 음색 정보의 독립성 38
2. 스페트럼 포락선와 시간적 동역학 정보의 독립성 41

제 5 장 결론 43
제 1 절 요약 43
제 2 절 결론 및 향후 계획 44


참고문헌 46
Abstract 50
-
dc.language.isokor-
dc.publisher서울대학교 대학원-
dc.subject.ddc004-
dc.title유연한 신경망 기반 신디사이저를 위한 시간적 동역학 분리-
dc.title.alternativeDisentangling Temporal Dynamics for Flexible Neural Net-Based Synthesizer-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.department융합과학기술대학원 융합과학부(디지털정보융합전공)-
dc.description.degreeMaster-
dc.date.awarded2020-02-
dc.identifier.uciI804:11032-000000160682-
dc.identifier.holdings000000000042▲000000000044▲000000160682▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share