Publications

Detailed Information

기계학습을 이용한 Aspect-Based Sentiment Analysis 기반 전기차 요소별 사용자 감성 분석 및 예측 모델링 : Aspect-Level Analysis and Predictive Modeling for Electric Vehicle Based on Aspect-Based Sentiment Analysis Using Machine Learning

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

정세준

Advisor
윤명환
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
사용자 경험기계학습Aspect Based Sentiment AnalysisUser ExperienceMachine Learning
Description
학위논문 (석사) -- 서울대학교 대학원 : 공과대학 산업공학과, 2020. 8. 윤명환.
Abstract
본 논문에서는 전기차를 대상으로 기계학습을 이용한 Aspect-Based Sentiment Analysis(ABSA) 기반 사용자 리뷰 분석을 통해, 차량의 주요 요소(Aspect)인 부품(Components) 및 특징(Attributes)을 추출하고, 추출된 각 요소에 대한 사용자 감성 예측 모델링 기반의 UX 분석 프레임워크(Framework)를 구현하여 기존의 인터뷰 및 설문조사와 유사한 수준의 사용자 의견을 얻는 것을 주요 목표로 한다. 이 과정에서 수반되는 데이터 불균형(Data Imbalance) 문제를 오버샘플링(Oversampling)을 통해 극복하고, 사용자 리뷰 부족 문제 극복을 위해 레이블이 없는(Non-label) 데이터를 활용하는 방법을 제안한다. 더불어 추출된 Aspect에 대한 차량 세부 스펙과 사용자 감성 간의 관계성 확인을 통해 감성에 영향을 주는 요소(Contributing Factor)를 찾는다.
연구 방법은 ABSA의 큰 틀을 활용하며, 크게 데이터 수집, 전처리 및 Feature 생성, 요소 추출(Aspect Extraction) 및 감성 분석(Sentiment Analysis)을 위한 모델링, 그리고 요소 별 사용자 감성 분석 순서로 진행하였다. 데이터 수집은 대표적인 자동차 포럼에서 사용자 만족도가 5점 척도로 평가된 Label 데이터 총 5,065개를 수집하였고, 데이터 부족 문제를 극복하고자 Youtube.com에서 Non-label 데이터를 약 21만개 수집하였으며 이 중 User Experience 관련 어휘가 포함된 리뷰로 한정하여 총 6,488개를 선별하였다. 이후 수집 데이터의 전처리 및 분산 표현(Distributed Representation)을 통한 효과적인 임베딩 과정을 거쳐 특징(Feature)을 생성하였다. 분석은 크게 두 가지 줄기로써, 요소 추출(Aspect Extraction)과 감성 분석(Sentiment Analysis)로 나뉜다. 요소 탐지를 위해 비지도적 방법(Unsupervised Method)이자 추출적 접근 방법(Extractive Approach)으로써, TextRank와 Naïve Method를 활용하였다. 그 다음 지도학습(Supervised Learning) 기반의 문장 감성 분류 모델을 구현하고자, Label이 있는 리뷰 텍스트 서두의 한 두문장으로 구성된 절단된 텍스트를 학습시킨 모델을 구축하였고, 준지도학습을 통해 더 나은 성능의 모델을 구현하고자 하였다. 이를 바탕으로 선정된 Aspect가 포함된 문장에 대한 감성 분석을 실시함으로써 요소별 감성 분석을 진행하고, 더불어 사용자 감성에 영향력 있는 차량 세부 스펙을 찾아 Contributing Factor를 발굴하고자 하였다.
연구 결과로써, 요소 추출(Aspect Extraction)로는 총 16개 카테고리의 주요 Aspects(8개의 주요 전기차 구성 요소와 8개의 주요 Human Factor 특성)가 추출되었는데, 이 중 사용자는 Acceleration / Room / Interior / Power / Safety / Ergonomics / Price / Power에 대해 긍정적이며, Seat / Battery / Charge / Noise / Winter / Ice에 대해 다소 부정적임을 확인하였다. 감성 분석(Sentiment Analysis)에서는 CNN 모델이 리뷰 단위 감성 분류에 있어 가장 높은 성능을 보였다. 따라서 CNN을 활용한 준지도학습(Semi-Supervised Learning)을 통해 Non-Label Data 중 80% 이상의 분류 확률이 높은 데이터 위주로 Pseudo Label을 부여하였고, 이를 포함한 전체 데이터를 재학습을 거치는 방법으로 모델의 성능 향상을 확인하였다. 또한 추출된 요소가 포함된 문장 단위 감성 분류에 대하여, 기계학습 모델 기반으로 결과와 Lexicon 기반 감성 분류 결과 간 17개 Aspect 중 14개가 예측 방향성이 일치함을 확인함으로써, 기계학습 기반 감성 분류 모델의 타당성을 간접적으로 확인하였다. 마지막으로 샘플 검증을 통해 본 연구에서 학습된 딥러닝 모델의 높은 분류 정확도를 확인하였는데, 딥러닝 모델이 단어 의미 이상으로 문장 문맥을 파악하여 긍정/부정 분류하였음을 확인하였다.
결론적으로 Aspect 기반의 문장단위 분석을 통해 보다 더 다양한 토픽과 편향되지 않은 의견을 추출할 수 있음을 보였다. 더불어 리뷰 데이터를 Over-sampling을 하여 Data Imbalance 문제를 접근함으로써 온라인 리뷰의 긍정 편향성을 극복하고, Semi-Supervised Learning을 통한 Non-Label Data 활용 방법을 통해 사용자 평가가 많이 부족한 제품에 대해 보다 효과적인 UX 분석 프레임워크를 제안하였다.
In this study, we extract main components and attributes, which are the main aspects of Electric Vehicle by analyzing User Experience based on Aspect-Based Sentiment Analysis (ABSA) using machine learning, overcoming the problems accompanying in this process such as Data Imbalance and insufficient user reviews by making use of non-label data. In addition, we find the contributing factors affecting users sentiments by figuring out the relationship between user's sentiment to each aspect extracted and detailed specifications of Electric Vehicle with regression.
Based on the ABSA method, and we perform data collection, data preprocessing, feature engineering, Aspect Extraction, modeling for sentiment analysis, and evaluating user sentiment to each aspect in sequence. For data collection, a total of 5,065 label data, which is evaluated with a 5-point scale by users, was collected from representative car forums. At the same time, in order to overcome the shortage of data and data imbalance, approximately 210,000 items of non-label data are collected from Youtube.com, of which 6,488 items were selected by filtering with limited to the user experience related only. And then, feature engineering is performed with effective embedding methods of distributed representation after data pre-processing. The analysis phase is mainly divided into two processes: Aspect Extraction and Sentiment Analysis. First of all, TextRank and Naïve methods were used as an unsupervised method and an extractive approach for Aspect Extraction. Then, in order to implement a sentiment classification model based on supervised learning with high performance, we built a machine learning model that trains the truncated text composed of one or two sentences at the beginning of a review text with a label and make it improved by means of semi-supervised learning. With the model trained, we are able to perform aspect-wise sentiment analysis by conducting sentiment analysis on the sentence that including the selected aspect term. Further, we find detailed specifications of vehicle that have an influence on user sentiment as contributing factors that affects users sentiment.
As a result, 16 categories of main aspects were extracted, eight key EV Components & eight key Human Factor Attributes, of which the users are likely to be positive to Acceleration, Room, Interior, Power, Safety, Ergonomics, Price, Power and negative to Seat, Battery, Charge, Noise, Winter, Ice. In sentiment analysis, the CNN model showed the highest performance in sentiment classification. Therefore, through semi-supervised learning using CNN, label propagation was performed among non-label data, giving the pseudo label to only the data with a high classification probability more that 80%, resulting in improvement in performance of the CNN model. Lastly, we confirmed the high classification accuracy of the deep learning model for predicting the users sentiment of the sentences. In addition, with regard to aspect-wise sentiment analysis, there was a tendency to predict the users sentiment similarly between machine learning based and lexicon-based, which showed machine learning based model is robust as much as lexicon-based.
In conclusion, it was shown that more diverse topics and unbiased opinions could be extracted through aspect-wise analysis than review-wise. In addition, we verified that the imbalance problem could be overcome by over-sampling Finally, a more effective UX analysis framework for the products that have not sufficient user reviews was proposed by taking advantage of non-label data with semi-supervised learning.
Language
kor
URI
https://hdl.handle.net/10371/169189

http://dcollection.snu.ac.kr/common/orgView/000000163349
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share