Publications

Detailed Information

Analysis of Tokenizers for Various Korean NLP Tasks : 한국어 자연어 처리를 위한 토크나이저에 대한 분석

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

이소람

Advisor
이재진
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
자연어처리토크나이저형태소분석기
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2023. 2. 이재진.
Abstract
Although there have been studies on Korean tokenizers intensively, there are not many studies that have reflected the grammatical characteristics of Korean, which is classified as an agglutinative language. In Korean, unlike inflectional languages such as English, where each word segment is a single word, a word segment is not a single word, but a combination of several words or a word and its corresponding grammatical elements. Therefore, it is unreasonable to use tokenizers developed based on English for Korean NLP (Natural Language Processing).

By comparing and analyzing 7 tokenizers (Mecab-ko, BPE, WordPiece, Unigram) that are currently mainly used in Korean NLP, we raise the necessity for a new Korean tokenizer that reflects Korean grammatical characteristics. And we summarize the Korean grammar characteristics that a new tokenizer should reflect.
한국어 토크나이저에 관한 연구는 계속되어 왔지만, 한국어의 문법적 특성을 반영한 토크나이저에 대한 연구는 많지 않다. 한국어는 하나의 어절이 여러 개의 단어 혹은 단어와 그에 대응되는 문법적 요소들로 구성된 교착어의 특징을 가지고 있다. 이는 하나의 어절이 하나의 단어로 구성되어 있고, 굴절어의 특징을 갖고 있는 영어와는 다르기 때문에 영어를 기반으로 개발된 토크나이저들을 한국어 자연어 처리에 사용하는 것은 적합하지 않다. 본 논문에서는 한국어 자연어 처리에서 주로 사용되는 7개의 토크나이저 (Mecab-ko, BPE, WordPiece, Unigram) 들을 비교하고 분석한다. 분석 결과를 바탕으로 한국어의 문법적 특성을 반영한 새로운 토크나이저의 필요성을 제안하고, 해당 토크나이저가 반영해야 할 요소들에 대하여 정리하였다.
Language
eng
URI
https://hdl.handle.net/10371/193603

https://dcollection.snu.ac.kr/common/orgView/000000176032
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share