Publications

Detailed Information

Data-Driven Input Feature Augmentation for Named Entity Recognition : 개체명 인식을 위한 데이터 기반의 입력 자질 확장

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

데렉스콧

Advisor
신효필
Major
인문대학 언어학과
Issue Date
2018-08
Publisher
서울대학교 대학원
Description
학위논문 (석사)-- 서울대학교 대학원 : 인문대학 언어학과, 2018. 8. 신효필.
Abstract
개체명 인식은 분류되지 않은 문장에서 특정 객체를 인식하고 특정 부류로 분류하기 위해 정보를 추출하는 작업이다. 기존에 개체명 인식은 수작업으로 추출하여 구축된 분야별/언어별 규칙에 의존하였다. 최근에는 의미 기반 임베딩과 글자 입력 등을 이용한 새로운 접근이 많이 시도되고 있지만, 한국어와 일본어의 경우 여전히 초기의 형태소 분석에 머물고 있다. 이 논문에서는 동등한 성능을 유지하면서 언어의 토큰화에 비해 몇 가지 현실적인 이점을 주는 데이터 기반의 시스템을 제안한다.



음절 기반 양방향 LSTM-CRF 모델에 토근 임베딩의 보조적인 역할과 기본 형태소 분석을 데이터 기반의 단어 토큰화 시스템으로 대처함으로써 최신 영어 NER에 견줄만한 결과를 한국어에서 도출할 수 있었다. 또한 언어의 종류에 상관없이 동일한 수준의 결과가 보장되는 시스템을 만들 수 있다. 이러한 시스템은 언어 검출 및 언어 기반 토큰화 시스템을 배제할 수 있기 때문에 분야별 다국어 정보 추출 작업에 이점을 가져올 수 있다.
Named entity recognition is the task of identifying and classifying entities in unlabeled text. Traditional approaches to named entity recognition rely on manual feature extraction that involve the construction of hand-crafted domain/language specific rules. While modern systems utilize semantic embedding spaces and subword input, Japanese and Korean models need linguistic morphological analysis. This increases computational demands and workflow complexity, and introduces potential issues such as lack of portability to new domains, and very large lexical inventories. While subword models have been used to overcome these issues, augmenting character-based input features with higher-level word features improves performance. We propose augmenting character-level input with data-driven tokens created without linguistic knowledge. In a bLSTM-CRF model, we find that this surpasses the character-level baseline and achieves results comparable to input augmented with linguistic morpheme analysis. Furthermore, we find that this approach can be applied directly to multilingual corpora without the need for language detection.

\begin{description}
Language
English
URI
https://hdl.handle.net/10371/143742
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share