Publications

Detailed Information

Building a Neural Machine Translation System Using Only Synthetic Parallel Data : 합성 병렬데이터를 활용한 인공신경망 기계번역 시스템 구축

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박재홍

Advisor
윤성로
Major
공과대학 전기·정보공학부
Issue Date
2017-08
Publisher
서울대학교 대학원
Keywords
neural machine translationsynthetic parallel datapseudo parallel dataphrase-based statistical machine translation
Description
학위논문 (석사)-- 서울대학교 대학원 공과대학 전기·정보공학부, 2017. 8. 윤성로.
Abstract
학습된 번역 모델에 의해 생성 가능한 합성 병렬데이터는 최근 인공신경망 기계번역에서 발생하는 다양한 이슈에 효과적인 해결책으로 대두되었다. 이러한 합성 병렬데이터의 효용에 착안하여 본 연구에서는 합성 병렬데이터만을 활용하여 인공신경망 기계번역 시스템을 구축한다. 더불어 본 연구에서는 실제 병렬 데이터의 효과적인 대안이 될 수 있는 새로운 유형의 합성 병렬데이터를 제시한다. 본 연구에서 제안하는 합성 병렬데이터는 실제 문장과 합성된 문장이 병렬 문장 쌍의 양쪽에 혼재되어 있다는 점에서 기존에 제시됐던 합성 병렬데이터와 차별성을 갖는다. 동일한 조건에서 본 연구가 제안하는 합성 병렬데이터로 인공신경망 기계번역 시스템을 학습한 결과, 기존에 제시됐던 합성 병렬데이터로 학습한 경우에 비해 양방향 번역에서 보다 우수하고 안정적인 번역 성능을 나타냈다. 또한 새로운 합성 병렬데이터로 학습한 인공신경망 번역 모델을 실제 병렬데이터로 fine-tuning 할 경우, 기존에 제시된 합성 병렬데이터에 비해 상대적으로 높은 번역 성능의 향상을 확인할 수 있었다.
Recent works have shown that synthetic parallel data automatically generated by translation models can be effective for various neural machine translation (NMT) issues. In this study, we build NMT systems using only synthetic parallel data. We also present a novel synthetic parallel corpus as an efficient alternative to real parallel data. The proposed pseudo parallel data are distinct from those of previous works in that ground truth and synthetic examples are mixed on both sides of sentence pairs. Experiments on Czech-German and French-German translations demonstrate the efficacy of the proposed pseudo parallel corpus in empirical NMT applications, which not only shows enhanced results for bidirectional translation tasks, but also substantial improvement with the aid of a ground truth parallel corpus.
Language
English
URI
https://hdl.handle.net/10371/137405
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share