SHERP

Linguistic alignment classification and generation with deep learning in Spanish conversation
스페인어 대화문에서의 딥러닝 기반 인접 호응 분류 및 생성 연구

Cited 0 time in webofscience Cited 0 time in scopus
Authors
노은정
Advisor
김은경
Major
인문대학 서어서문학과
Issue Date
2018
Publisher
서울대학교 대학원
Keywords
Linguistic AlignmentSpanish MarkerAlignment ClassificationMarker ValidationAligned Response GenerationQuasi-spoken Corpus
Description
학위논문 (박사)-- 서울대학교 대학원 : 인문대학 서어서문학과, 2018. 2. 김은경.
Abstract
2,250 pairs of alignment and 2,250 pairs of non-alignment in Twitter conversion). The performance of the classifier was fairly good (70-80 %), and higher than 35-55 % of the baseline (classified as alignment response if the markers existed in the answer sentence) based on the theory.
The unlabeled data of 50,000 pairs (alignment 27,449 pairs, non-alignment 22,551 pairs) were classified through the trained classifier, and we made a generation model using 27,449 pairs of alignment-classified dialogues. As a result, we could generate various responses with better quality from the classified data than those from labeled data. This shows that using the trained classifier is a useful way to collect a large amount of data and reduce human labor. We also validated markers based on classified Spanish data, and found unexpected markers. We confirmed that deep learning can be very useful in linguistic research, and it is possible to design a system that generates a context-sensitive response, depending on the user 's input.
This is the first study to establish the theoretical concept of the linguistic alignment and to validate the markers by deep learning to solve this difficult problem. We have tried to verify the markers by detecting the aligned response syntax and modeling them through various experiments, and achieved the desired purpose of generating an answer to the alignment response. The problem we mentioned is very important in practice, and the lack of high performance of the model reflects the difficulty of the task itself. We are expecting this to be a basic deep learning methodology for linguistic research and developing a system that will solve the data shortage and respond appropriately to users.
인접 호응(linguistic alignment)은 대화에서 상대방이 직전에 말한 문장에 대해, 맥락에 맞는 말을 하는 것이다. 일반적으로 의사 소통에서, 화자는 상대방의 의견을 수락하거나 지지하기 위해 발화의 스타일을 변경하고, 상대방의 발언에 따라 의사 전달의 요지를 변경한다. 인접 호응 구조는 실생활에서 자주 발견되지만, 선행연구에 명확한 기준이 없었기에 먼저 어학적으로 이 문제를 정의하는 것에서 시작하였다. 인접 호응은 직전 발화의 맥락에 맞춰 대화를 이어가는 구조를 가리키며, 상대방의 앞선 발화를 긍정하거나 부정하는 경우, 그리고 앞에 나온 말을 반복하는 경우에 성립한다. 한편, non-alignment에는 앞에 나온 주제가 바뀌거나 대화의 흐름이 끊기고 더 이어지지 않거나 전혀 무관한 말을 하는 경우가 해당된다. 이 현상은 여러 상황에서 관찰되며 다양한 사회적 요인 및 원인에 따라 달라질 수 있다. 이것은 일종의 적응이나 수용 행동으로, 웹 상에서의 대화와 대면 상황에서 일반적으로 관찰된다. 분명 존재하나 실제로 규정하기 어려운 문제라는 점에서 전통적인 규칙기반 방식으로 인접 호응 구조를 분석하는 것은 쉽지 않다고 판단하였다. 따라서 그 해결책으로서 최신 딥러닝 방식을 활용하여 분석하고, 언어적 특성을 파악하고자 했다.
이 연구는 세 가지 신규성을 가지고 있다. 첫째, 인접 호응을 탐지하고 분류하기 위해 최초로 딥러닝을 적용하였다. 둘째, 최초로 스페인어에 인접 호응 개념을 적용하였으며, 이를 위해 스페인어 인접 호응 코퍼스와 인접 호응을 예측하는 모델을 만들었다. RNN과 CNN, Siamese network 모델을 설계하여 스페인 준구어 코퍼스에서 인접 호응 구문의 언어적 이론적 기준을 수립하고 분석하는 방법을 제안하였다. 셋째, 스페인어 어휘 표지자(marker)의 타당성을 검증하였다.
스페인어는 어휘 요소가 풍부하게 발달되어 있으며 대용어 등의 문장 성분이 명시적으로 다양하게 드러난 언어다. 우리는 어휘와 범주 특성에 따라 주요 표지자를 추출하여 연구할 필요가 있다고 보고, 서울대학교 학부 대상 교과서 4권과 주제별 웹 트위터 데이터를 크롤링하여 수집하였다. 트위터 대화를 수집하기 위한 크롤러를 만들고, 수집한 스페인어 준구어 코퍼스에서 인접 호응이 발생하는 언어적 이론 기준을 정립하여 정답 데이터를 구축하였다. 특정 표지자에 의존하지 않는 모델을 위하여 문장 전체를 고려하는 딥러닝 방식을 적용하였다. 각각 RNN과 CNN, Siamese network 기반의 인접 호응 여부를 예측하는 분류기를 만들어 적합한 표지자를 추출하고 검증하였다. 실험을 통해 일반적인 예상과 달리 특정 어휘 요소에 기반하여 스페인어 문장을 구분하는 것에는 무리가 있음을 확인하였다.
인접 호응 분류(alignment classification)를 학습하기 위해서 트위터 대화와 서울대학교 스페인어학습 교재 대화문을 사용하였다. 정립한 인접 호응 기준을 바탕으로 트위터 2,000쌍과 교재 1,384쌍 데이터를 분류하였다. 그리고 각 데이터를 1:1 비율로 증대(augmentation)한 8,400여 쌍(교재 alignment 1,960쌍, non-alignment 1,960쌍
트위터 alignment 2,250쌍, non-alignment 2,250쌍) 데이터로 분류기(classifier)를 학습시켰다. 분류기의 성능은 이론에 기초하여 예상한 베이스라인(표지자가 답변 문장에 존재하면 인접 호응으로 분류)의 성능 35-55% 보다 높은 70-80%로 상당히 fair한 수준의 성능을 보였다.
학습한 인접 호응 분류기(alignment classifier)를 통해 총 50,000쌍(alignment 27,449쌍, non-alignment 22,551쌍)의 unlabeled 데이터를 분류하도록 하였고, 분류된 27,449쌍의 인접 호응 대화문을 이용하여 생성모델을 만들었다. 그 결과 labeled data만으로 생성을 하려 했던 것보다 양질의 인접 호응 문장 생성이 가능하였다. 이는 학습된 분류기를 사용하여, 데이터를 확보하는 방법을 통하여 사람의 노동력을 상당량 경감시키면서 학습에 필요한 데이터를 확보할 수 있음을 나타낸다. 우리는 대량의 분류된 스페인어 데이터를 기반으로 마커 검증을 하였고, 사람이 예상한 것 외의 마커를 발견하는 것이 가능했다. 이를 통해 언어학 연구에도 딥러닝 기술이 유용하게 사용될 수 있음을 확인하였고, 인접 호응 코퍼스 및 모델을 기반으로 사용자의 입력에 맞춰 맥락에 맞는 응답을 생성하는 시스템을 만들 수 있었다.
이 논문은 실제 언어 상황에서 발견되는 인접 호응 현상에 대한 이론적 개념을 정립하고, 쉽사리 규정하기 힘든 이 문제를 해결하기 위해 데이터를 수집하고 학습시켜 딥러닝을 통해 검증한 최초의 연구이다. 다양한 실험을 통해 인접 호응 구문을 탐지하고 모델을 만들어 표지자에 대한 검증을 시도하였으며, 인접 호응에 성립하는 답변을 생성하는 소기의 목적을 달성하였다. 지적한 문제는 현재 실무적으로도 어려우면서도 필요한 기술이며, 모델의 성능이 높지 않은 것은 문제 자체의 난이도를 반영하는 것으로 볼 수 있다. 데이터 부족 문제를 해결하고 사용자에게 적절하게 응답할 시스템을 개발하는 데에 필요한 기준 및 연구 방법으로 활용될 것으로 예상한다.
In general communication, the speaker changes the style of speech in order to accept or support the opinion of the other person, and changes the point of communication according to the previous interlocutor's speech. Here we constructed a tagged corpus for alignment, as well as a model for predicting the linguistic alignment markers. In this study, the alignment refers to the reaction or attitude of recognizing previous speech and the strategy of choosing words according to the context. This phenomenon is observed in many different contexts and may vary depending on various social factors and causes. It is a kind of accommodation or adaptation behavior, commonly observed in web-based conversations as well as face-to-face situations. Therefore, it can be used to infer the social dynamics that are potentially difficult to directly observe the immediate response. Until now, however, there was no standard method for measuring the aligned response. Its mechanism is unclear whether it is based on the structural level, or the purpose of the conversation. In order to answer these questions, we try to use the Deep Learning Prediction Model to find the alignment structure.
Although alignment structure is often found in real world, there was no clear standard in previous studies, we started to define it theoretically. Alignment response refers to a structure that continues conversation in line with the context of the immediately preceding utterance. It affirms or rejects the utterance of the other party, and repeats the preceding statement. On the other hand, non-alignment refers to cases in which the above-mentioned topics are changed or the flow of the conversation is interrupted, and the words are not related to each other at all. Linguistic alignment is observed in many situations and can vary depending on various social factors and causes.
It is difficult to analyze the alignment response structure in a conventional rule-based method in that it is a problem that is obviously existent but is difficult to define in practice. Therefore, we tried to analyze and utilize the state-of-the-art deep learning method as a solution.
This study has three novelties. Firstly, we applied deep learning for the first time to detect and classify linguistic alignment. Secondly, we applied the concept of alignment response to Spanish for the first time. We design RNN, CNN, and Siamese network models to propose a method for establishing theoretical criteria of alignment sentences in Spanish quasi-spoken corpus. Thirdly, we validated the Spanish vocabulary markers.
Spanish has a very well developed vocabulary structure with lots of explicit lexical elements. We analyzed the vocabulary and category characteristics with four textbooks of Seoul National University and crawled web Twitter data. We created a crawler for collecting Twitter conversations, and constructed the correct answer data by establishing the linguistic theoretical criteria in which the alignment responded in the collected corpus. For a model that does not depend on a specific marker, a deep learning method that takes into account the whole sentence is applied. We developed a classifier for predicting the alignment using the RNN, CNN, and Siamese networks. Experiments have shown that it is difficult to classify Spanish sentences based on specific vocabulary tokens.
In order to train alignment classification, we analyzed the twitter conversation and the dialogues in Spanish textbooks of Seoul National University. Based on the established response criteria, we classify 2,000 pairs of twitters and 1,384 dialogue pairs in textbooks, and validated the quality of training using the valid loss model selection method. The classifier was trained by 8,400 pairs of augmentation of each data at 1: 1 ratio (1,960 pairs of alignment, 1,960 pairs of non-alignment in L2 acquisition materials
Language
English
URI
http://hdl.handle.net/10371/141075
Files in This Item:
Appears in Collections:
College of Humanities (인문대학)Hispanic Language and Literature (서어서문학과)Theses (Ph.D. / Sc.D._서어서문학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse