Publications

Detailed Information

딥러닝을 이용한 음성합성 기술의 군사작전분야 적용 : Application of speech synthesis technology using deep learning to military operations

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

권용찬

Advisor
장원철
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
Tacotron2주관적 음질 평가(MOS)Griffin-LimWaveNet음 성합성MOS(Mean opinion score)TTS(Text-to-speech)
Description
학위논문 (석사) -- 서울대학교 대학원 : 자연과학대학 통계학과, 2021. 2. 장원철.
Abstract
본 논문은 딥러닝을 이용한 음성 합성 기술의 군사작전 적용의 가능성을 탐
색하기 위해 음성합성 모형을 이용한 북한말 합성에 관해 연구한다. Tacotron2
를 음성합성 모형로 사용하여 멜 스펙트로그램(Mel-spectrogram)을 생성하였으
며 vocoder로 griffin-Lim 알고리즘과 WaveNet을 사용하여 멜 스펙트로그램을
오디오로 변환한다.두 알고리즘의 비교를 위해 주어진 문장 50개를 각각의 알고
리즘을 이용해 100개의 음성을 만든 후 19명의 성인남녀에게 들려주어 개인별
점수를 임의효과모형(random effect model)을 이용하여 분석하였다. GriffinLim 알고리즘으로 생성한 음성이 우위를 보였으며 추가적인 양질의 데이터를
얻고 조절모수를 최적화하면 실질적으로 군사작전에 적용 할 수 있는 수준으로
개발할 수 있을 것이다
In this paper, we study North Korean speech synthesis using a speech synthesis model to explore the possibility of applying speech synthesis technology
using deep learning to military operations. Mel-spectrogram was created using
Tacotron2 as a speech synthesis model, and Mel-spectrogram was converted
to audio using Griffin-Lim algorithm and WaveNet with vocoder. For comparison of the two algorithms, 50 given sentences were converted using each
algorithm. After making 100 voices, they were played to 19 adult men and
women, and individual scores were analyzed using a random effect model. The
voice generated by the Griffin-Lim algorithm showed the superiority, and by
obtaining additional high-quality data and optimizing the adjustment parameters, it could be developed to a level that can be practically applied to military operations.
Language
kor
URI
https://hdl.handle.net/10371/176111

https://dcollection.snu.ac.kr/common/orgView/000000165429
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share