Publications

Detailed Information

An Analysis of Wh-Word Dependency Relation Representations in English and Korean BERT Models : 한국어 및 영어 BERT 모델에서의 Wh-어 의존관계 표상 분석

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

로버트 조슈아

Advisor
신효필
Issue Date
2021
Publisher
서울대학교 대학원
Keywords
BERTBERTologyattentiondependency relationswh-questionscomplex adaptive system어텐션의존관계wh-의문복잡 적응계
Description
학위논문(석사) -- 서울대학교대학원 : 인문대학 언어학과, 2021.8. 신효필.
Abstract
트랜스포머 신경망 모델 구조의 발전은 자연 언어 처리 (NLP) 분야에 진보를 가져왔으나, 어떻게 트랜스포머 모델이 이러한 성과를 가져왔는지에 대한 분석이 완전히 이루어지지는 않았다. 이에 따라 트랜스포머 모델이 어떻게 기능하는지에 대해 이해하기 위하여, 이 모델의 내부 구조에 대해 수많은 연구가 행해졌으며, 특히 BERT 모델이 통사, 의미 등 상당한 양의 언어적 특성을 표상한다는 결과를 얻을 수 있었다. BERT 모델은 사전 학습 과정에서 언어적 특성을 의도적으로 학습시키지 않으면서도 일반적인 언어 모델링 작업의 부산물로 이러한 특성의 결과를 보인다는 점에 주목할 가치가 있다.

본 연구의 목적은 위의 연구들을 확장하여, 트랜스포머 모델들을 한국어 및 영어의 학습에 대해 분석했을 때 각 모델로부터 발생되는 결과들이 일반적인 패턴으로 귀결하는지 확인하는 것이다. 이러한 패턴이 일반적인 언어 유형론적 지식과 일치한다면, 각 BERT 모델이 통사론적 및 의미론적 특성들을 표상하며, 종합적으로 BERT 모델들이 유형론적 특성을 표상한다고 볼 수 있을 것이다.

위의 가정을 확인하기 위해 본 연구는 한국어와 영어의 wh-의문문 구조에 대해 5가지 BERT 모델을 이용해 분석을 수행한다. 이 두 언어는 통사론적 특성에 있어 현저한 차이를 보인다. 한국어의 경우 평서문과 wh-의문문의 어순이 같지만 영어의 경우 wh-의문문에서 의문사가 앞에 위치하도록 구성하므로 평서문과 어순이 다르게 나타난다.

본 연구는 두 언어에서 평서문과 wh-의문문 구조의 대비와 관련된 두 의존관계(목적어-의존관계: 평서문에서 본동사에 대한 목적어의 의존성, wh-의존관계: wh-의문문에서 본동사에 대한 의문사의 의존성)에 대해 5가지 모델들을 테스트하고, 이들 모델을 이용해 사용-기반 언어학 원리를 고려하여 두 가지 가설을 확인한다. 첫째, 한국어의 경우 평서문과 wh-의문문의 어순이 일치하기에 한국어로 학습된 모델 네트워크에서는 통사ㆍ의미적 지식의 인식이 용이하며 목적어-의존관계와 wh-의존관계가 네트워크의 같은 층에서 표상될 것이다. 둘째, 영어의 경우 평서문과 wh-의문문의 어순이 다르며 평서문이 비교적 흔하다는 사실을 고려하면, 영어로 학습된 모델 네트워크에서 언어적 지식의 인식이 더 어려우며, wh-의존관계가 목적어-의존관계에 비해 네트워크의 더 깊은 층에서 표상될 것이라 예측된다.

이에 따라 테스트한 5가지 BERT 모델에 대해 두 가설이 모두 검증되었다. 여섯 번째 모델인 multilingual BERT 모델 또한 비교적 모호하면서도 예측과 일치하는 결과를 보였다.

본 연구는 각각의 모델이 통사론적 및 의미론적 특징을 표상하는 것과 같은 방식으로 여러 BERT 모델들로부터 공통적인 유형론적 특징을 발견할 수 있음을 확인하였다. 또한 이러한 발견이 언어를 복잡 적응계(CAS)로 여기는 언어 이론을 설명한다는 점을 시사한다.
While the development of the transformer neural network architecture has revolutionized the field of natural language processing (NLP), it is still not fully understood exactly how transformer models achieve the performance they do. This has led to a wealth of research devoted to studying the internal structure of transformer models to better understand how they function, establishing that transformers, and BERT models in particular, do indeed capture and represent a substantial amount of syntactic, semantic, and other linguistic knowledge. This is remarkable as the pretrained BERT models are not explicitly trained to capture such linguistic knowledge. Rather, these capacities emerge as a byproduct of these models more general task of language modelling.

The central motivation behind the current thesis is to attempt to extend this line of research into considering populations of models trained across different languages at once, in order to determine whether the emergent behaviors of a population of models themselves converge onto a more general pattern. If this is the case, and if the general pattern converged upon accords with our understanding of typology, we may say that, just as individual BERT models can capture syntactic and semantic features, populations of BERT models can collectively capture typological features.

This study attempts to determine this by testing five models across two languages—English and Korean—on a set of syntactic features correlated to a salient distinction between the two languages: wh-question constructions. In Korean, the word order between a simple declarative sentence and a wh-question are the same. In English, however, the word order between the two is significantly different, due to the wh-fronting of English question formation.

We test all five models on two syntactic relations correlated to the contrast between declarative sentence and wh-question constructions in both languages: the dependency of the object on the root-verb in declarative sentences (object-dependencies), and the dependency of the wh-word on the root-verb in wh-questions (wh-dependencies). Assuming principles of usage-based linguistics, we predict two behaviors from the population of models. First, because declarative sentences and wh-questions are isomorphic constructions in Korean, we predict that they will be equally easy for Korean trained networks to recognize, and that therefore object-dependencies and wh-dependencies will be represented in the same attention layers of the network. Second, because of the difference in word order between the two constructions in English (along with the comparative commonality of declarative constructions), we predict that English trained networks will find wh-questions more difficult to recognize, and will therefore capture wh-dependencies in later attention layers of the network than object-dependencies.

For all five of the primary models tested, these two predictions are confirmed. A sixth model, multilingual BERT, is also shown to display the same behaviors, albeit more ambiguously.

The study takes the confirmations of these predictions as concluding that populations of models can indeed capture typological features, much in the same way individual models capture syntactic or semantic features. Finally, this study suggests that these findings are elegantly accounted for by linguistic theories which take language to be a complex adaptive system (CAS).
Language
eng
URI
https://hdl.handle.net/10371/177412

https://dcollection.snu.ac.kr/common/orgView/000000166789
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share