Publications

Detailed Information

클로즈 형식 기계 독해를 위한 신경망 언어 모형의 전이 학습과 한국어로의 적응 : Transfer Learning of Neural Language Models and Language Model Adaptation to Korean for Cloze-Style Machine Reading Comprehension

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박희웅

Advisor
박종헌
Issue Date
2021-02
Publisher
서울대학교 대학원
Keywords
과업 전이교차언어 적응사전학습 언어 모형신경망 미세조정한국어 데이터셋자연어 이해텍스트의 기계 이해텍스트 채우기Crosslingual adaptationKorean datasetMachine comprehension of textNatural language understandingNeural network finetuningPretrained language modelsTask transferText infilling
Description
학위논문 (박사) -- 서울대학교 대학원 : 공과대학 산업공학과, 2021. 2. 박종헌.
Abstract
기계 독해는 자연어 이해의 하위 분야로, 인공지능 혹은 컴퓨터 알고리듬이 주어진 지문을 바탕으로 글의 내용에 대한 질문에 답하는 것을 목적으로 한다. 기계 독해의 대표적인 응용은 문서로부터 자연어 질의를 통한 정보 검색으로, 검색 능률을 증진하고 자동화된 응답 시스템 구축에 활용될 수 있을 뿐만 아니라, 비정형 텍스트 데이터에 직접 질의응답을 수행함으로써 기존의 프로그램화된 시스템보다 데이터 가공 비용을 절감할 수 있다. 클로즈 형식 기계 독해는 지문의 일부 텍스트가 빈칸으로 대체된 채로 주어지고 빈칸에 들어갈 적절한 말을 채우는 형식의 과업을 일컫는다. 해당 과업은 간단한 법칙을 이용해 클로즈 형식으로 변환 가능한 질문들이 많아 응용 범위가 넓은 데다가, 단순한 문제 형태 덕분에 기계 독해 능력을 평가하는데 자주 사용되어 왔다.
본 논문에서는 클로즈 형식 기계 독해를 일반 텍스트 말뭉치로 학습한 신경망 언어 모형의 전이 학습에 기반하여 해결하는 방법을 논의한다. 막대한 텍스트 데이터로부터 습득된 지식들을 활용함으로써 소량의 목표 과업 데이터와 연산 리소스만으로 효과적인 기계 독해 모형을 얻고자 했으며, 구체적으로 다음 세 가지 측면에서 기법을 제안한다. 첫째, 모형 학습 과정에서 샘플 문제들을 접할 수 없는 상황에 적용 가능하도록, 양방향 신경망 언어 모형을 클로즈 형식 기계 독해 과업에 대해 비지도적으로 학습된, 텍스트의 적합도를 스코어링하는 모형으로 활용하는 제로샷 전이 방식을 제시한다. 둘째, 클로즈 형식 기계 독해 데이터셋이 훈련 과정에서 가용할 때, 사전학습된 신경망 언어 모형의 파라미터를 샘플들을 이용해 업데이트하는 미세조정 기법을 소개한다. 마지막으로, 리소스가 풍족한 다중어 또는 타국어로 학습된 신경망 언어 모형을, 위의 기법들을 적용하기 이전 단계에서, 비교적 작은 크기의 한국어 말뭉치로 교차언어 추가 학습하여 언어 적응시키는 방법을 탐구한다.
클로즈 형식 기계 독해 중 지문이 문장 하나인 문장 완성 과업의 마이크로소프트 리서치(Microsoft Research; MSR) 챌린지 셋과 SAT(Scholastic Assessment Test) 데이터셋으로 먼저 제안 기법을 검증하였다. 제한된 말뭉치로만 학습하는 MSR 챌린지 세팅하에서, 제안하는 양방향 단어 단위 신경망 언어 모형을 제로샷 전이했을 때, 기존의 결과들을 모두 뛰어넘는 정확도를 달성했다. 또한 방대한 외부 말뭉치로 사전학습된 여러 신경망 언어 모형들을 제로샷 전이 및 미세조정 실험에 사용하였으며, 미세조정 과정을 통해 정확도가 향상되어 MSR 셋과 SAT 셋 모두에서 최고 성능을 기록했다. 다중어 또는 타국어 신경망 언어 모형의 한국어로의 적응 기법을 실험하기 위해, 한국어능력시험으로부터 직접 1823개 선다형 문제들을 추출하여 한국어 클로즈 기계 독해 데이터셋을 구축하였다. 다양한 언어로 기학습된 신경망 언어 모형들에 대해 제안하는 교차언어 추가 학습 과정을 수행하였으며, 한국어 말뭉치로만 단일어 모형을 학습한다거나 다중어 모형을 단순히 추가 훈련할 때보다 성능이 개선됨을 확인하였다.
Machine reading comprehension (MRC), a subfield of natural language understanding, aims to make an artificial intelligence or computer algorithm to answer questions about the content of a given passage. A typical application of MRC is information retrieval through natural language queries from a document. It contributes to enhancing search efficiency, building an automated response system, and reducing the data processing cost by directly answering questions on unstructured text data. Cloze-style MRC refers to a task of a specific form in which some part of a passage is removed, and the objective is to infer an appropriate text for the missing contents. It has a wide range of applications since many questions can be converted into cloze-style form by simple heuristics, having been frequently used to assess reading comprehension ability owing to its straightforward problem nature.
This thesis discusses methods for the cloze-style MRC task based on transfer learning of neural language models (LMs) learned from a plain-text corpus. By exploiting knowledge acquired from a lot of texts, this study aims at training an effective MRC model with a small amount of target task data and less computational resources. For this purpose, the following methods are suggested. First, for the case where no sample questions are available in the development stage, a zero-shot transfer method that utilizes a bidirectional neural LM to score the acceptability of texts by regarding language modeling as an unsupervised training objective is presented. Second, a fine-tuning method that updates the parameters of a pre-trained LM by using some cloze-style question samples is introduced. Lastly, how to adapt an LM that was pre-trained on multiple languages or another high-resource language to Korean language by additionally training with a relatively small size of Korean corpus is explored.
The proposed methods are first validated with the Microsoft Research (MSR) challenge sentence completion set and a Scholastic Assessment Test (SAT) sentence completion dataset in which the passage length of a cloze-style question is just one sentence. When trained with the official standard dataset of the MSR challenge, the proposed bidirectional word-level neural LM with the zero-shot transfer achieved the accuracy surpassing all the previous results. Besides, various LMs pre-trained with massive external text data are also compared in zero-shot transfer and fine-tuning experiments. The accuracy was improved through the fine-tuning process, leading to the state-of-the-art results for both the MSR and SAT sets. To test the cross-lingual adaptation approach, this work introduces a Korean cloze-style MRC dataset by extracting 1823 multiple-choice questions from TOPIK (Test of Proficiency in Korean) exams. Through conducting the adaptation experiment with several neural LMs that pre-trained in different languages, it has been confirmed that adapting a pre-trained LM with a Korean corpus in the cross-lingual manner can be beneficial than learning a monolingual LM from the corpus as well as simply updating a pre-trained multilingual LM with the added data.
Language
kor
URI
https://hdl.handle.net/10371/175210

https://dcollection.snu.ac.kr/common/orgView/000000165657
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share