Publications

Detailed Information

Leveraging Linguistic Patterns for Neural Sequence Labeling in Natural Language Processing : 언어적 패턴을 활용한 딥러닝 기반의 자연어 순차적 레이블링

DC Field Value Language
dc.contributor.advisor이상구-
dc.contributor.author신유현-
dc.date.accessioned2019-10-21T02:24:07Z-
dc.date.available2019-10-21T02:24:07Z-
dc.date.issued2019-08-
dc.identifier.other000000157661-
dc.identifier.urihttps://hdl.handle.net/10371/162014-
dc.identifier.urihttp://dcollection.snu.ac.kr/common/orgView/000000157661ko_KR
dc.description학위논문(박사)--서울대학교 대학원 :공과대학 전기·컴퓨터공학부,2019. 8. 이상구.-
dc.description.abstractSequence labeling, which is also known as sequence tagging, is one of the technique for Natural Language Processing (NLP) and Spoken Language Understanding (SLU). NLP and SLU are needed in order to extract information from text. There are renowned examples that are part-of-speech (POS) tagging, chunking, named entity recognition (NER), and supersense tagging in NLP and slot filling in SLU. To solve these tasks, neural network based sequence labeling algorithms show state-of-the-art performance. Most neural sequence labeling models expand their learning capacity by employing additional layers such as character-level layer, jointly training NLP tasks having common knowledge, or augmenting training data. Subsequently, we leverage linguistic patterns using aforementioned approaches.

In this dissertation, we introduce four ways to learn linguistic patterns that helps to decide labels to be annotated. First approach is tagging with a combination of character, subword, and word-level representations, that we incorporate all three types of word-feature units to extract linguistic features. Second approach is joint learning with delexicalization, that we jointly predict words nearby entities and labels to use mutual information. Third one is joint learning with segment-level language modeling, that we exploit segment information to leverage linguistic patterns in a segment. Last one is data generation with Variational Auto-Encoders (VAEs), that we generate data based on original data distribution to expand the training dataset automatically.

The main contributions are summarized as follows: First, we examine distinct characteristics offered by different granularity of input representation. Second, we explore the possibility of improving sequence labeling performance efficiently by utilizing linguistic features. Third, we introduce a new model architecture improves the labeling accuracy of segments which are endmost unit of labeling. Last, we propose a labeled utterance generation model, which minimize human effort, to augment original data which is limited and insufficient. Experimental results demonstrate the advantage of leveraging linguistic patterns for sequence labeling in NLP and SLU.
-
dc.description.abstract자연어로 된 문장을 토큰 단위로 처리하여 정보를 추출하기 위해 순차적 레이블링 알고리즘이 사용된다. 순차적 레이블링의 대표적인 예로는 슬롯 인식, 개체명 인식, 품사 태깅, 청킹, 그리고 슈퍼 센스 태깅이 있다. 최근에는 이러한 문제들을 해결하기 위해 신경망 기반의 순차적 레이블링 알고리즘들이 제안되고 있으며, 모델의 학습 능력을 향상시키기 위해 언어적 특성 및 문맥을 활용하는 학습 방법들이 제안되고 있다. 예를 들어, 캐릭터 단위의 히든 레이어를 추가하거나, 공통된 지식을 지니는 다른 자연어 처리 문제와 함께 학습시키는 등의 새로운 목적 함수를 제안하는 방향으로 발전되어 왔다. 특히나 언어 모델과 순차적 레이블링을 함께 학습하는 방법이 제안되고 있다. 그러나 언어 모델을 이용하여 문맥을 학습할 경우에 자주 등장하지 않는 단어에 대해서는 상대적으로 학습 잘 되지 않는 문제가 있다. 레이블 데이터는 구축에 많은 비용이 소요되므로, 그 양이 딥러닝 모델을 학습하는 데에 충분하지 않은 경우가 있다.

본 학위 논문은 언어적 패턴을 활용하여 위 문제들을 해결하는 방법들을 제안한다. 첫 번째 방법은 학습 단위로 캐릭터, 서브워드, 단어를 활용하여 각 단위의 역할을 분석해보고, 조합을 활용하는 모델을 제안한다. 두 번째 방법은 순차적 레이블링과 탈어휘화 문장 생성 공동 학습 기법을 적용한 학습으로, 레이블 주변에 등장할 수 있는 문맥에 집중하여 학습하는 방법을 제안한다. 세 번째 방법은 언어 모델을 세그먼트 단위로 학습할 수 있도록 하여, 언어 모델을 실제 레이블링의 단위인 세그먼트 단위로 계산하여 구 단위의 엔티티에도 강인한 문맥 학습모델을 제안한다. 네 번째는 데이터 증강을 위해 레이블을 활용한 텍스트 생성 알고리즘으로, 딥러닝 모델의 충분한 학습을 돕기 위해 기존의 데이터와 유사한 문장을 생성하여 학습 데이터에 다양성을 부여한다. 실험적으로 우리가 제안하는 언어적 특성과 문맥을 고려하는 방법들이 순차적 레이블링에 효과적임을 밝힌다.
-
dc.description.tableofcontentsChapter 1 Introduction 1
1.1 Motivation and Research Problems 2
1.2 Our Solution 3
1.3 Contributions 5
1.4 Thesis Outline 6
Chapter 2 Background and Related Work 8
2.1 Sequence Labeling 8
2.1.1 Variants of LSTM 9
2.1.2 Example Tasks 11
2.2 Linguistic Patterns 13
2.3 Probabilistic Language Model 14
Chapter 3 Tagging with a Combination of Character, Subword, and Word-level Representations 15
3.1 Introduction 15
3.2 Background 17
3.2.1 Supersense Tagset 17
3.2.2 Subword Segmentation 17
3.3 Model Description 18
3.3.1 Input Representation 18
3.3.2 BiLSTM-CRF Architecture 19
3.4 Experiments 21
3.4.1 Experimental Setup 21
3.4.2 SemCor Evaluations 21
3.4.3 Detailed Analysis 23
3.5 Summary 24
Chapter 4 Joint Learning with Delexicalization 25
4.1 Introduction 25
4.2 Related Work 27
4.2.1 Encoder-decoder Attention Framework 27
4.2.2 Delexicalization 27
4.2.3 Joint Learning 28
4.3 Proposed Model 28
4.3.1 Encoder-decoder Attention Framework 28
4.3.2 Training 31
4.4 Experiments 32
4.4.1 Experimental Setup 32
4.4.2 Results on ATIS dataset 33
4.4.3 Results on LARGE dataset 35
4.5 Summary 36
Chapter 5 Joint Learning with Segment-level Language Modeling 38
5.1 Introduction 38
5.2 Related Work 42
5.3 Background: BiLSTM-CRF with character-level LSTM 43
5.3.1 Character-level layer: charLSTM 44
5.3.2 Word-level Layer: BiLSTM 44
5.3.3 Label Dependency: CRF 45
5.4 Proposed: Segment-level LSTM 46
5.4.1 Segment-level Layer: segLSTM 48
5.4.2 Segment-level Language Modeling 49
5.4.3 Next Segment Prediction 50
5.5 Experiments 51
5.5.1 Evaluation Setup 51
5.5.2 Baseline and Other Comparable Methods 56
5.5.3 The Results on Various Sequence Labeling Datasets 57
5.5.4 Comparison with Recent Published Results 59
5.5.5 Ablation study: Baseline vs Proposed 62
5.5.6 Detailed Analysis of Models that Learn Jointly with the Language Model 67
5.6 Summary 70
Chapter 6 Data Generation with VAE 71
6.1 Introduction 71
6.2 Background 72
6.3 Proposed Data Generation 74
6.3.1 Encoder 75
6.3.2 Utterance representation 76
6.3.3 Decoder (Generator) 76
6.4 Experimental Result 77
6.4.1 Experimental Setting 78
6.4.2 Quantitative Comparison 81
6.4.3 Qualitative Analysis 82
6.5 Summary 84
6.6 Discussion 85
Chapter 7 Conclusion 87
초록 105
-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectsequence labeling-
dc.subjectnatural language processing-
dc.subjectspoken language understanding-
dc.subjecttext generation-
dc.subjectlinguistic patterns-
dc.subject.ddc621.3-
dc.titleLeveraging Linguistic Patterns for Neural Sequence Labeling in Natural Language Processing-
dc.title.alternative언어적 패턴을 활용한 딥러닝 기반의 자연어 순차적 레이블링-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorYouhyun Shin-
dc.contributor.department공과대학 전기·컴퓨터공학부-
dc.description.degreeDoctor-
dc.date.awarded2019-08-
dc.identifier.uciI804:11032-000000157661-
dc.identifier.holdings000000000040▲000000000041▲000000157661▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share