Publications

Detailed Information

머신러닝 기반의 온라인 미디어 감성분석을 통한 자동차 제조사 주가 해석에 관한 연구 : Machine Learning Based Car Manufacturer Stock Price Analysis by Online Media Sentiment Analysis

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박민수

Advisor
윤성로
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
주가해석감성분석자동차 제조사온라인 미디어 분류머신러닝Stock Price AnalysisMachine LearningSentiment AnalysisCar ManufacturerOnline Media Category
Description
학위논문 (석사) -- 서울대학교 대학원 : 공학전문대학원 응용공학과, 2020. 8. 윤성로.
Abstract
화폐라는 가치 측정의 매개를 통하기 훨씬 이전부터 인류는 등가 교환이라는 대전제 아래 다양한 유형 또는 무형의 재화들을 거래해 왔으며, 이로부터 적정한 가치의 측정은 경제활동에 있어 필수요소가 되어왔다. 이러한 시장의 요구에 따라 다양한 재화에 대한 가치평가 방법들이 연구되고 있으며, 특히 1602년 네덜란드의 암스테르담에 세계 최초로 증권거래소가 세워진 이후로 기업의 가치평가 즉, 주식의 가치평가 분야는 폭발적 시장규모의 성장과 함께 가장 활발히 연구가 진행되고 있는 분야이다. 그러나 전통적인 시장경제하에서 발달하여온 주식 가치평가 방법의 대부분은 수치적 분석에 집중되어 왔으며, 이러한 수치적 해석이 많은 부분에 있어 적절하고 우수한 해석 결과를 제시하고 있음에도 불구하고 전통적 방법론이 다루지 못하는 정성적 데이터에 대한 부분은 수치적 해석의 한계로 지적되고 있다.
본 연구에서는 최근 급격하게 발달하고 있는 소프트웨어와 하드웨어 기술에 힘입어 다양하게 제시되고 있는 머신러닝 기반의 감성 분석(Sentiment Analysis) 방법을 활용하여 정성적 데이터를 수치화하고 이를 주가 해석에 활용하여 더 나은 해석 결과를 얻기 위한 방안을 제시하고자 한다. 이를 위하여 글로벌 자동차 제조사 중 6개사를 선정하여 2019년 한 해 동안 발생한 온라인 미디어 데이터를 키워드 기반으로 수집하였으며, 보다 세분화된 해석 특성을 파악하기 위하여 미디어 데이터를 전문매체, 일반매체, 사용자 그룹 및 기타의 4개 카테고리로 분리하고 각각의 미디어를 제목과 그 내용으로 구분하여 분석을 진행하였다. 수집된 데이터는 데이터 피쳐링(Data Featuring)을 통하여 구성을 파악하고 기본적인 전처리 과정을 거쳐 주가 예측에 대한 경향성을 파악하기 위하여 회귀 경로와 분류 경로로 나누어 선행 분석을 진행하였으며 회귀 경로에서는 Linear Regression과 Random Forest Regressor를 사용하여 기본이 되는 주식가격의 움직임 대비 RMSE(Root Mean Square Error)를 측정하는 방식으로, 분류 경로에서는 Logistic Regression과 Random Forest Classifier로 기존 주식 가격의 Null Model 대비 예측 정확도를 확인하는 방식으로 각각의 경향성을 파악하고자 하였다. 이후 실제적인 주가 해석을 위하여 VAR(Vector Autoregression) 모델을 이용한 예측 모델을 구축하고 각 미디어 유형별 그리고 제목과 그 내용을 나누어 예측 성능을 평가한 후 각각의 그룹이 가지는 해석 특성을 탐지하고자 하였다.
본 연구는 감성 분석을 통하여 주식시장의 움직임을 거시적으로 접근한 것이 아니라 산업 분야를 특정하고 해당 산업 분야에 속한 대표기업들의 미디어 데이터를 유형별로 구분하여 분석을 진행하였다는 점, 더 나아가 제목과 내용의 차이점을 함께 분석함으로써 향후 감성 분석을 통한 시장 해석 연구에 있어 데이터 선정의 방향성과 데이터 범주화의 필요성을 제시하였다.
Long before implementing the intermediation of value measurement called currency, mankind has been trading various types of goods on the major premise of the exchange of equivalent, and from that, the measurement of the proper value has been an essential element of economic activity. According to these market demands, value evaluation methods for various goods have been researched, in particular, since the world's first stock exchange was established in Amsterdam, the Netherlands in 1602, the valuation of companies, that is, the valuation of stocks has become one of the most actively researched field with the explosive growth in the stock market. However, most stock valuation methods that have been developed in the traditional market economy system are focused on numerical analysis, and although many of these numerical interpretations provide adequate and excellent analysis results, they cannot deal with qualitative data and this is pointed out as a limitation of numerical interpretation.
The purpose of this study is to provide a method for better analytic results with the implementation of machine learning-based sentiment analysis made possible by the advances in software and hardware technologies and to digitize qualitative data and use this get more accurate stock analysis. To this end, six global automakers were selected to collect online media data generated during the year of 2019 based on keywords, and to understand more detailed analysis media data was collected in and divided into four categories of professional media, general media, consumer group, and others, and each media was analyzed by dividing it into titles and contents. The characteristics of collected media materials were identified through data featuring and after basic pretreatment they were divided into regression path and classification path to identify the analysis trends in stock value prediction. In the regression path, linear regression and random forest regressors are used to measure RMSE (Root Mean Square Error) against the movement of the base stock price. In the classification path, the logistic regression and random forest classifier are used to compare the null model of the existing stock price to grasp each trend by checking the prediction accuracy. Afterward, a prediction model using a vector autoregression (VAR) model is constructed for practical stock price analysis, and the prediction performance is evaluated by classifying each media type and the title and its contents. After which the group or categorys characteristics were analyzed.
In this study, rather than comprehensively approaching the movement of the stock market through sentiment analysis, we analyzed the media data by classifying the media data of representative companies belonging to the industry, and further analyzing the differences between the title and content. By analyzing them together, we suggested the direction of data selection and the necessity of data categorization in future market analysis research through emotional analysis.
Language
kor
URI
https://hdl.handle.net/10371/169480

http://dcollection.snu.ac.kr/common/orgView/000000161365
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share