Publications

Detailed Information

전이 개체명 그래프 기반 액티브 러닝을 통한 개체명 인식 : Transitional Entity Graph based Active Learning for Entity Recognition

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이혜수

Advisor
문봉기
Issue Date
2020
Publisher
서울대학교 대학원
Description
학위논문(석사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2020. 2. 문봉기.
Abstract
최근 트위터나 페이스북과 같은 소셜미디어와 웹 페이지, 이메일, 블로그 등 온라인에서 생성되는 그림, 영상, 텍스트 데이터뿐만 아니라 의료기록 및 각종 트랜잭션 데이터 등 방대한 양의 비정형데이터(Unstructured Data)가 생성되고 있다. 이러한 비정형데이터의 증가와 더불어 인공지능 및 자연어 처리 기술의 발전으로 해당 기술들을 적용하여 텍스트 데이터에서 새로운 인사이트를 얻고자 연구들이 진행되고 있다. 그중 개체명 인식은 텍스트 데이터 내의 지명에서부터 질병 및 부작용에 이르기까지 개체명 분류에 속하는 도메인 내의 개념을 개체명으로 추출한다. 전통적으로 개체명 인식은 텍스트 데이터 개체명 중복을 고려하여 규칙 기반으로 정규식이나 사전을 구성하고 매칭되는 개체명을 추출하는 원거리 학습 방식을 활용하였다.
하지만, 확장 가능성 및 언어의 모호성과 다양성을 고려하기 위해 지도 학습 접근방식을 활용한 딥러닝 모델이 제시되었다. 지도 학습은 레이블 데이터가 필요하기 때문에 해당 분야의 전문가의 레이블링(Labeling)이 요구되는데, 이를 더 빠르고 효율적으로 할 수 있도록 액티브 러닝(Active Learning)이 제시되었다. 액티브 러닝은 모델 학습에 가장 유용한 데이터를 어노테이터에게 우선 순으로 제시하여, 모델의 정확도를 높이면서 동시에 레이블링 비용을 줄일 수 있는 전략을 제시한다.
본 연구에서는 액티브 러닝의 기존 샘플링 전략을 분석하고 개체명 인식에서 데이터셋 내 문서 간의 유용성을 기반으로 순위를 정의하는 새로운 그래프 형태인 전이 개체명 그래프(Transitional Entity Graph)를 제안한다. 액티브 러닝을 진행하며 축적되는 개체명 레이블을 활용해 해당 그래프를 정제한다. 이종 그래프(Heterogeneous Graph)를 액티브 러닝 진행에 따라 함께 진화하는 전략을 제시하는 것은 본 연구가 처음이다. 개체명 인식 벤치마크 데이터셋과 대표적인 딥러닝 모델을 활용한 실험을 통해 해당 샘플링 전략이 타 샘플링 전략에 비해 적은 양의 학습 데이터로 높은 F1 점수를 보이는 것을 확인하였다. 특히 제안한 전략이 학습 초기에 좋은 성능을 보이는 것을 확인하였다.
Recently, massive amounts of unstructured data such as medical records, transaction data, and pictures on social media are generated. In addition to the increase of unstructured data, researches are being conducted to gain new insights from text data by applying advanced artificial intelligence and natural language processing technologies. Among them, entity recognition extracts domain-specific concepts such as diseases and side effects from text data.
Traditionally, the distant supervision approach of constructing sets of regular expressions or custom dictionaries was used to retrieve matching string entities. However, due to its lack of scalability and difficulty in handling ambiguity and diversity of language, machine learning models were introduced to the task. And as supervised deep learning models have shown significant success in natural language processing, more researches shifted toward the utilization of deep neural networks. On the contrary, supervised learning requires labeled data, which demands human labor. And active learning has been proposed to make the labeling process faster and more efficient. Active learning increases model accuracy and reduces labeling costs by presenting the most useful data for training.
In this paper, we analyze existing active learning strategies and propose a transitional entity graph, a novel graph form that evolves along with the active learning process. The transitional entity graph applied with PageRank ranks data samples based on the influence within a dataset network. The graph is refined using the accumulated entity labels during active learning. To the best of our knowledge, this is the first study to propose a sampling strategy by improving a heterogeneous graph as progressing through active learning. Experiments with the entity recognition benchmark datasets and a deep learning model have shown that the suggested sampling strategy showed a higher F1 score with fewer training samples compared to other sampling strategies. In particular, the proposed strategy shows excellent performance in the early stage of learning.
Language
kor
URI
http://dcollection.snu.ac.kr/common/orgView/000000158773
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share