Publications

Detailed Information

Data-Driven Input Feature Augmentation for Named Entity Recognition : 개체명 인식을 위한 데이터 기반의 입력 자질 확장

DC Field Value Language
dc.contributor.advisor신효필-
dc.contributor.author데렉스콧-
dc.date.accessioned2018-12-03T01:39:29Z-
dc.date.available2018-12-03T01:39:29Z-
dc.date.issued2018-08-
dc.identifier.other000000153484-
dc.identifier.urihttps://hdl.handle.net/10371/143742-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 인문대학 언어학과, 2018. 8. 신효필.-
dc.description.abstract개체명 인식은 분류되지 않은 문장에서 특정 객체를 인식하고 특정 부류로 분류하기 위해 정보를 추출하는 작업이다. 기존에 개체명 인식은 수작업으로 추출하여 구축된 분야별/언어별 규칙에 의존하였다. 최근에는 의미 기반 임베딩과 글자 입력 등을 이용한 새로운 접근이 많이 시도되고 있지만, 한국어와 일본어의 경우 여전히 초기의 형태소 분석에 머물고 있다. 이 논문에서는 동등한 성능을 유지하면서 언어의 토큰화에 비해 몇 가지 현실적인 이점을 주는 데이터 기반의 시스템을 제안한다.



음절 기반 양방향 LSTM-CRF 모델에 토근 임베딩의 보조적인 역할과 기본 형태소 분석을 데이터 기반의 단어 토큰화 시스템으로 대처함으로써 최신 영어 NER에 견줄만한 결과를 한국어에서 도출할 수 있었다. 또한 언어의 종류에 상관없이 동일한 수준의 결과가 보장되는 시스템을 만들 수 있다. 이러한 시스템은 언어 검출 및 언어 기반 토큰화 시스템을 배제할 수 있기 때문에 분야별 다국어 정보 추출 작업에 이점을 가져올 수 있다.
-
dc.description.abstractNamed entity recognition is the task of identifying and classifying entities in unlabeled text. Traditional approaches to named entity recognition rely on manual feature extraction that involve the construction of hand-crafted domain/language specific rules. While modern systems utilize semantic embedding spaces and subword input, Japanese and Korean models need linguistic morphological analysis. This increases computational demands and workflow complexity, and introduces potential issues such as lack of portability to new domains, and very large lexical inventories. While subword models have been used to overcome these issues, augmenting character-based input features with higher-level word features improves performance. We propose augmenting character-level input with data-driven tokens created without linguistic knowledge. In a bLSTM-CRF model, we find that this surpasses the character-level baseline and achieves results comparable to input augmented with linguistic morpheme analysis. Furthermore, we find that this approach can be applied directly to multilingual corpora without the need for language detection.

\begin{description}
-
dc.description.tableofcontents1 Introduction: Named Entity Recognition 1

1.1 Issues in Named Entity Recognition . . . . . . . . . . . . . . . 3

1.2 Research Objectives . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 Research Outline . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Literature Review 9

2.1 Input Features . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.1.1 Handcrafted Features . . . . . . . . . . . . . . . . . . . 10

2.1.2 Semantic Embedding Spaces . . . . . . . . . . . . . . . 11

2.2 Entity Recognition Models . . . . . . . . . . . . . . . . . . . . . 13

2.2.1 The Conditional Random Field . . . . . . . . . . . . . . 17

2.2.2 Recurrent Neural Networks . . . . . . . . . . . . . . . . 18

2.2.3 Long Short-Term Memory . . . . . . . . . . . . . . . . . 20

2.3 Subword Approaches . . . . . . . . . . . . . . . . . . . . . . . . 24

2.4 Linguistic and Data-driven Tokenization . . . . . . . . . . . . . 27

3 Methodology Overview 33

3.1 General Procedure . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Use of Unlabeled Data . . . . . . . . . . . . . . . . . . . . . . . 36

4 Corpus Data 39

4.1 Korean Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.2 Japanese Data . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.3 Corpus Comparison . . . . . . . . . . . . . . . . . . . . . . . . 44

5 Experiments 45

5.1 Data Pre-processing . . . . . . . . . . . . . . . . . . . . . . . . 46

5.1.1 Unlabeled Corpora . . . . . . . . . . . . . . . . . . . . . 46

5.1.2 Annotated Corpora . . . . . . . . . . . . . . . . . . . . 47

5.2 Model Architectures and Hyperparameters . . . . . . . . . . . . 47

5.2.1 Dropout Regularization . . . . . . . . . . . . . . . . . . 49

5.2.2 Embedding Layer and Pretrained Weights . . . . . . . . 50

5.3 Training Procedure . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Results 53

6.1 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . 53

6.2 Korean . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

6.3 Japanese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

6.4 Mixed Language . . . . . . . . . . . . . . . . . . . . . . . . . . 58

6.5 Comparison with Other Studies . . . . . . . . . . . . . . . . . . 61

7 Conclusion 63
-
dc.formatapplication/pdf-
dc.format.mediumapplication/pdf-
dc.language.isoen-
dc.publisher서울대학교 대학원-
dc.subject.ddc401-
dc.titleData-Driven Input Feature Augmentation for Named Entity Recognition-
dc.title.alternative개체명 인식을 위한 데이터 기반의 입력 자질 확장-
dc.typeThesis-
dc.contributor.AlternativeAuthorDerek Hommel-
dc.description.degreeMaster-
dc.contributor.affiliation인문대학 언어학과-
dc.date.awarded2018-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share