Publications

Detailed Information

An Automatic Analysis of Argumentation Schemes of Korean Texts : 한국어 텍스트 논증 구조의 자동 분석 연구

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이상아

Advisor
신효필
Major
인문대학 언어학과
Issue Date
2016-02
Publisher
서울대학교 대학원
Keywords
Argument MiningArgumentation SchemeArgumentation StructureDiscourse RelationReasoning StrategyKorean Text Processing
Description
학위논문 (석사)-- 서울대학교 대학원 : 언어학과 언어학전공, 2016. 2. 신효필.
Abstract
최근 온라인 텍스트 자료를 이용하여 대중의 의견을 분석하는 작업이 활발히 이루어지고 있다. 이러한 작업에는 주관적 방향성을 갖는 텍스트의 논증 구조와 중요 내용을 파악하는 과정이 필요하며, 자료의 양과 다양성이 급격히 증가하면서 그 과정의 자동화가 불가피해지고 있다.
본 연구에서는 정책에 대한 찬반 의견으로 구성된 한국어 텍스트 자료를 직접 구축하고, 글을 구성하는 기본 단위들 사이의 담화 관계의 유형을 정의하였다. 하나의 맥락 안에서 두 개의 문장 혹은 절이 서로 관계를 갖는지, 관계를 갖는다면 서로 동등한 관계인지, 그렇지 않은 경우 어느 문장(절)이 더 중요한 부분으로서 다른 하나의 지지를 받는지의 기준에 따라 담화 관계를 두 개의 층위로 나누어 이용하였다.
이러한 기본 단위들 사이의 관계는 기계 학습과 규칙 기반 방식을 이용하여 예측된다. 이 때 각 글의 저자가 표현하고자 하는 의도, 자신의 주장을 뒷받침하기 위해 제시하는 근거의 종류, 그리고 그 근거를 이루는 논증 전략 등이 텍스트의 언어적 특징과 함께 중요한 자질로 작용된다. 논증의 전략으로는 예시, 인과, 세부 사항에 대한 설명, 반복 서술, 정정, 배경 지식 제공 등이 관찰되었다. 이들 세부 분류는 담화 관계의 대분류를 구성하고, 그 담화 관계를 예측하는 데 쓰이는 자질의 기반이 되었다.
또한 일부 언어적 자질들은 기존 연구를 참고하여 한국어 자료에 적용할 수 있는 형태로 재구성하였다. 이를 이용하여 한국어 코퍼스를 구축하고 한국어 연구에 특화된 접속사 및 연결어의 목록을 구성하여 자질 목록에 포함시켰다. 이러한 자질들에 기반해서 담화 관계를 예측하는 과정을 이 연구에서 독자적인 모델로서 자동화하여 제안하였다.
예측 실험의 결과를 보면 본 연구에서 정의하여 이용한 자질들은 긍정적인 상호 작용을 통해 담화 관계 예측의 성능을 향상시킨다는 것을 알 수 있었다. 그 중에서도 일부 접속사 및 연결어, 문장 성분의 유무에 따른 의존적인 문장 구조, 그리고 같은 내용을 반복 서술하는지의 여부 등이 특히 예측에 기여하였다.
텍스트를 이루는 기본 단위들 사이에 존재하는 담화 관계들은 서로 연결, 합성되어 텍스트 전체에 대응되는 트리 형태의 논증 구조를 이룬다. 이렇게 얻은 논증 구조에 대해서는, 트리의 가장 위쪽인 루트 노드에 글의 주제문이 위치하고, 그 바로 아래 층위에 해당하는 문장(절)들이 근거로서 가장 중요한 내용을 담고 있다고 가정할 수 있다. 따라서 주제문을 직접적으로 뒷받침하는 문장(절)을 추출하면 글의 중요 내용을 얻게 된다. 이는 곧 텍스트 요약 작업에서 유용하게 쓰이는 방식이 될 수 있다. 또한 주제에 따른 입장 분류나 근거 수집 등 다양한 분야에서도 응용이 가능할 것이다.
These days, there is an increased need to analyze mass opinions using on-line text data. These tasks need to recognize the argumentation schemes and main contents of subjective, argumentative writing, and the automatization of the required procedures is becoming indispensable.
This thesis constructed the text data using Korean debates on certain political issues, and defined the types of discourse relations between basic units of text segments. The discourse relations are classified into two levels and four subclasses, according to the standards which determine whether the two segments are related to each other in a context, whether the relation is coordinating or subordinating, and which of the two units in a pair is supported by the other as a more important part.
The relations between basic text units are predicted based on machine learning and rule-based methods. The features for the prediction of discourse relations include what the author of a text wants to claim and argumentative strategies comprising grounds for the author's claim, using linguistic properties shown in texts. The strategies for argument are observed and subcategorized into Providing Examples, Cause-and-Effects, Explanations in Detail, Restatements, Contrasts, Background Knowledge, and more. These subclasses compose a broader class of discourse relations and became the basis for features used during the classification of the relations.
Some linguistic features refer to those of previous studies, they are reconstituted in a revised form which is more appropriate for Korean data. Thus, this study constructed a Korean debate corpus and a list of connectives specialized to deal with Korean texts to include in the experiment features. The automated prediction of discourse relations based on those features is suggested in this study as a unique model of argument mining.
According to the results of experiments predicting discourse relations, the features defined and used in this study are observed to improve the performance of prediction tasks through positive interactions with each other. In particular, some explicit connectives, dependent sentence structures based on lack of certain components, and whether the same meanings are restated clearly contributed to the classification tasks.
The discourse relations between basic text units are related and combined with each other to comprise a tree-form argumentation structure for the overall document. Regarding the argumentation structure, the topic sentence of the document is located at the root node in the tree, and it is assumed that the nodes of sentences or clauses right below the root node contain the most important contents as grounds for the topic unit. Therefore, extraction of the text segments directly supporting the topic sentence may help in obtaining the important contents in each document. This can be one of the useful methods in text summarization. Additionally, applications to various fields may also be possible, including stance classification of debate texts, extraction of grounds for certain topics, and so on.
Language
English
URI
https://hdl.handle.net/10371/131957
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share