Publications

Detailed Information

음절 기반 한국어 단어 임베딩 모델 및 학습 기법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

최상혁

Advisor
이상구
Major
공과대학 컴퓨터공학부
Issue Date
2017-02
Publisher
서울대학교 대학원
Keywords
한국어 단어 임베딩 Word2vec 단어분산표현
Description
학위논문 (석사)-- 서울대학교 대학원 : 컴퓨터공학부, 2017. 2. 이상구.
Abstract
단어 임베딩은 자연어로 이루어진 단어를 실수 차원의 벡터에 대응시키는 과정으로, 개체명 인식, 기계 번역, 문장 분류 등 다양한 인공지능 및 자연어 처리 분야의 기반으로 활용된다. 하지만 단어 임베딩과 관련한 기존 연구들은 대부분 영어를 비롯한 라틴어 기반 언어만을 대상으로 진행되어 왔고, 한국어와 같이 단어의 형태가 단어의 의미와 연관되어지는 교착어의 특성을 가진 언어들은 기존 연구를 그대로 적용하기에 한계가 존재한다.
본 연구에서는 분산 가정을 바탕으로 한 기존 단어 임베딩 학습 방식의 토대를 그대로 유지하면서도, 음절 단위 기반의 컨벌루션 신경망을 적용하여 단어의 형태를 임베딩 학습 과정에 반영하는 새로운 단어 임베딩 학습 모델을 제시한다. 또한 모델의 복잡성 증대로 인해 상승하는 학습 비용을 줄이고, 계산 효율성을 높이는 중복단어 동시 처리와 배치 재배열 방법에 대해 소개한다.
본 연구는 단어 임베딩의 일반적인 평가지표인 단어 유사도, 이웃 단어 비교 테스트에서도 기존 모델에 비해 뒤지지 않는 모습을 보여주는 한편, 오타나 신조어등 말뭉치에 존재하지 않는 단어 벡터에 대한 학습을 가능하게 하였고, 실제 실험 결과를 통해 그 성능 역시 상당히 뛰어남을 입증하였다. 그리고 기존의 모델들이 단어와 결합되는 조사의 의미를 제대로 학습하지 못하는 단점 또한 해결하였다.
Language
Korean
URI
https://hdl.handle.net/10371/122708
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share