신조어 및 띄어쓰기 오류에 강인한 시퀀스-투-시퀀스 (Sequence-to-sequence) 기반 한국어 형태소 분석기 : Sequence-to-sequence based Korean Morphological Analyzer for Neologism and Spacing Error

Cited 0 time in Web of Science Cited 0 time in Scopus


Issue Date
서울대학교 대학원
형태소 분석품사 태깅시퀀스 투 시퀀스원형 복원인터넷 텍스트 데이터
학위논문(석사)--서울대학교 대학원 :공과대학 컴퓨터공학부,2019. 8. 이상구.
최근 인터넷 텍스트 데이터의 수가 늘어나면서 인터넷 텍스트의 자연어 처리에 대한 수요도 늘고 있다. 특히, 한국어 커뮤니티 등에서 수집되는 한국어로 된 텍스트 데이터를 처리해야 할 필요성이 늘고 있다. 그런데 한국어의 교착어라는 특성 상 한국어 자연어 처리에는 형태소 분석이 필수적이라 할 수 있다.
특히 인터넷 텍스트 데이터를 분석하기 위해서는, 띄어쓰기 오류가 있는 문장에서도 정확히 형태소 분석을 해내야 하고, 신조어 등의 OOV 입력에 대한 원형 복원 성능이 충분해야 한다. 그러나 기존 한국어 형태소 분석기는 원형 복원에 사전을 사용하는 경우가 많고, 이를 위해 기분석 사전 또는 규칙에 기반한 전처리 과정 등이 필요하다.
본 논문에서는 Sequence-to-sequence 모델을 기반으로 위의 띄어쓰기 문제와 신조어 문제를 효과적으로 처리할 수 있어 인터넷 텍스트 데이터 분석을 효과적으로 할 수 있는 한국어 형태소 분석기 모델을 제안하였다. 본 모델은 높은 확장성을 위하여 사전을 사용하지 않고, 규칙에 기반한 전처리를 최소화하였다. 또한 본 논문에서 제안하는 모델은 일반적으로 사용하는 음절 외에도 음절 Bigram과 자소라는 두 가지 추가 요소를 입력 자질로 같이 사용하였다. 그리고 어절 구분 정보에 의존하지 않도록 공백을 제거한 데이터를 학습 데이터로 같이 사용하였다.
실험 결과 세종 말뭉치에서 형태소 단위 F1-measure가 0.9793으로, 기존 형태소 분석기와 비교해서 부족하지 않고 사전을 사용하지 않는 다른 형태소 분석기에 비해 뛰어난 성능이 나왔다. 띄어쓰기가 없는 데이터셋에 대해서도 1% 전후의 성능 감소만이 있었으며, Train 데이터셋에 없는 단어 및 인터넷 데이터 샘플에 대해서도 높은 성능이 나오는 것을 확인하였다.
Recently, as the mount of Internet text data is increasing, the demand for natural language processing for the data, especially data from Korean internet communities is also increasing. However, morphological analysis is essensial for Korean natural language processing
In order to analyze Internet text data, it is necessary to accurately perform morphological analysis even in a sentence with a spacing error, and enough original form restoration performance for an out-of-vocabulary input. However, existing Korean morphology analyzer often use dictionaries and complicate preprocessing for the restoration.
Based on the sequence-to-sequence model, we proposed a Korean morphological analyzer model that can effectively handle the spacing problem and OOV problem. In addition, the model proposed in this paper uses syllable bigram and grapheme as additional input features. Our model dont use dictionary and minimizes rule-based preprocessing.
As a result, our best model achieves a 0.9793 morpheme F1-measure for Sejong corpus, which is superior to other morphological analyzers without dictionary. We also found that there was a performance reduction of around 1% for datasets without space. Our model also had high performance for OOV words and Internet sample dataset.
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Computer Science and Engineering (컴퓨터공학부)Theses (Master's Degree_컴퓨터공학부)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.