Browse

주목 기반 순환신경망을 이용한 감성 분석과 활용

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
주현탁
Advisor
성원용
Major
공학전문대학원 응용공학과
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
감성분석순환신경망자연어처리
Description
학위논문 (석사)-- 서울대학교 대학원 : 공학전문대학원 응용공학과, 2018. 2. 성원용.
Abstract
감성 분석은 주어진 글이 가리키는 대상이나 화자의 의견 또는 평가를 분석하는 분야로 글의 주체가 가진 의견이나 감성은 수치적으로 파악하기 어렵기 때문에 자연어 처리에서도 어려운 분야로 여겨져 왔다. 감성 분석 분야는 최근 급부상한 빅데이터의 열풍과 함께 선거나 광고, 마케팅 등의 영역에서 사람의 직관에 의존하던 부분들을 대체하여 체계적이고 정밀한 분석을 하는 데에 큰 성과를 이루고 있다.
본 연구는 네이버 영화 리뷰 데이터와 Rotten Tomato Movie Review 데이터를 이용하여 순환신경망 모델을 중심으로 글이 긍적적인 판단을 내리고 있는지 부정적인 판단을 내리고 있는지를 효과적으로 분류하는 방법에 대한 내용을 다룬다. 텍스트를 컴퓨터가 이해할 수 있는 형태인 벡터로 변환하는 과정에서 문서를 자모, 글자, 단어, 형태소로 나누는 방법을 제안하고 각각을 감성 분석 모델의 입력으로 사용할 때 어떠한 변환 방법이 가장 좋은 성능을 내는지를 비교해 본다.
감성 분석 모델로는 기존의 순환신경망을 개선한 LSTM, Bi-directional LSTM 과 여기에 Attention Mechanism 를 적용한 모델을 사용하였고 이것을 비 신경망 모델인 Naïve Bayes Classifier 와 비교해 보았다.
네이버 영화 리뷰 데이터에서는 형태소 기반으로 문서를 나누었을 때 Bi- directional LSTM 에 Attention Mechanism 을 적용한 모델이 가장 우수한 성능을 보였고 Rotten Tomato Movie Review 데이터에서는 단어기반으로 Bi- directional LSTM 에 Attention Mechanism 을 적용한 모델이 가장 우수한 성능을 보이는 것을 확인하였다. 성능의 차이가 발생하는것은 훈련 데이터에 등록되지 않은 검증 데이터의 미등록어 비율이 주요한 원인으로 작용하는 것을 확인하였고 특히 한글의 경우 단어 단위로 문서를 나누었을 때 미등록어 비율이 현저하게 높아지는 것을 확인할 수 있었다.
분류와 더불어 Attention Mechanism 모델에서 각 문서에 대해 시퀀스의 어떤 시간 스텝에서 Attention Vector 가 활성화되는지를 분석하였고 이를 바탕으로 어떠한 형태소가 감정 판단을 하는데 영향을 끼치는지 정량적으로 분석할 수 있었다.
Language
Korean
URI
https://hdl.handle.net/10371/141665
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Graduate School of Engineering Practice (공학전문대학원)Theses (Master's Degree_공학전문대학원)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse