Publications

Detailed Information

나이브 베이지안 분류를 이용한 감성 기반 검색시스템 : A Sentiment based Retrieval System using Naïve Bayesian Classification

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

김현식

Advisor
최진욱
Issue Date
2022
Publisher
서울대학교 대학원
Keywords
자연어처리감성분석머신러닝나이브 베이지안 분류정보검색
Description
학위논문(석사) -- 서울대학교대학원 : 공과대학 협동과정 바이오엔지니어링전공, 2022.2. 최진욱.
Abstract
This paper is a study on a model that recommends search results that are more suitable for individual sentiments by re-adjusting search rankings based on an algorithm that reflects sentiments. Since December 2019, the viewing time on OTT (Over-the-top media service) platforms has increased due to the pandemic of COVID-19, a global infectious disease, but a phenomenon called Netflix Syndrome has occurred. Therefore, this study developed a movie search system that reflects the user's sentiments through sentiment analysis to increase the search accuracy and satisfaction of users using the search system to solve the above problems.
Sentiment analysis is a natural language processing technology, and it is newly defined in this study as five sentiments: angry, depressed, energetic, nervous, and tender. By using this definition as a machine learning technique of Naive Bayesian classification, sentiment analysis was performed on weather forecast and movie review data.
The Naive Bayesian classification technique is a statistical technique that infers posterior probabilities based on additional information newly entered into the prior probabilities of an inference target under the assumption that all word features are independent. As a result of evaluating the model through machine learning and testing using this principle, it was possible to confirm the accuracy performance of 0.84 and 0.81 for movie review and weather forecast, respectively.
The sentiment prediction score generated through Naive Bayesian classification was transferred to the sentiment vector generation model, and the sentiment prediction score was ranked and converted into an sentiment vector. The converted weather forecast and sentiment vectors of movie reviews are calculated together with the search engine devised in this study to recommend search results reflecting sentiments. At this time, the optimal performance is confirmed by introducing the sentimental index (α), which adjusts the degree to which sentiments are reflected in the algorithm experiment was conducted.
In addition, in this study, a search engine that reflects sentiments was created by using the Lucene library specialized in information retrieval. In addition, a movie search program including a movie search interface was developed so that the subjects could directly participate in the search.

In this study, by changing the sentimental indexes, a comparative experiment was conducted on the influence of the search results of the search system according to the sentimental indexes. An experiment was conducted to compare the performance through the search satisfaction of the general search engine α=0 and the search engine in which sensibility was reflected as α=0.3 and α=0.7 for 50 subjects. The experimental results of this study recorded an average search satisfaction score of 3.53 points when α=0.7, an average of 3.63 points when α=0.3, and 3.89 points when α=0.7. Through the T-test with the general search engine and the sentimental search engine that reflects different sentimental indexes, it was confirmed that the sentimental search engine that reflects the sentimental index as α=0.7 showed statistically significant search satisfaction.
The search engine that reflects the sentiment developed in this study will be able to access the area of sentiment that has not been approached before using a mechanical model. Through this, it is expected that it will be useful when used commercially in search platforms such as music, movies, and shopping.
In addition, it is expected that this study will have the potential to be used in the medical field because it is possible to mechanically grasp the sentimental state of the person using the search system.
본 논문은 감성이 반영된 알고리즘을 기반으로 검색 순위를 재조정하여 좀 더 개인의 감정에 맞는 검색결과를 추천하는 모델에 관한 연구이다. 2019년 12월 이후로 세계적인 감염증인 코로나-19의 대유행에 의해 OTT(Over-the-top media service)플랫폼 시청 시간이 늘어났지만, 영화 선택을 위해 한참을 고민한다는 넷플릭스 증후군이라 현상이 발생하였다. 따라서, 본 연구는 위와 같은 문제를 해결하기 위해 검색시스템을 이용하는 사용자의 검색 정확도와 만족도를 높이기 위한 감성분석을 통한 사용자의 감성이 반영한 영화검색시스템을 개발하였다.
감성분석이란 자연어처리 기술로써 화남, 우울함, 활기찬, 걱정스러움, 부드러움의 5개의 감성으로 본 연구에서 새롭게 정의하였다. 이러한 정의를 나이브 베이지안 분류의 머신러닝 기법으로 사용하여 기상예보와 영화리뷰 데이터를 감성분석을 하였다.
나이브 베이지안 분류 기법은 단어의 특징들이 모두 독립이라는 가정 아래, 추론 대상의 사전 확률에 새로 들어온 추가적인 정보를 기반으로 사후 확률을 추론하는 통계적 기법이다. 이러한 원리를 이용하여 머신러닝의 학습과 시험 통해 모델을 평가한 결과 영화리뷰와 일기예보 각각 0.84와 0.81의 정확도 성능을 확인할 수 있었다.
나이브 베이지안 분류를 통해 생성된 감성예측점수는 감성벡터 생성모델로 전달되어 감성예측점수에 순위를 매겨 감성벡터로 변환되었다. 변환된 일기예보와 영화리뷰의 감성벡터는 본 연구에서 고안한 검색엔진과 함께 계산되어 감성이 반영된 검색결과를 추천한다. 이때 알고리즘에 감성을 반영하는 정도를 조절하는 감성지수( )를 도입하여 추후 최적의 성능을 확인 
하는 실험을 하였다.
또한 본 연구에서 정보검색에 특화된 루씬 라이브러리를 활용하여 감성이 반영된 검색엔진을 제작하였다. 그리고 실험참여자에게 직접검색에 참여할 수 있도록 영화검색 인터페이스를 포함한 영화검색 프로그램을 개발하였다.

본 연구에서 감성지수를 변경해가며 감성지수에 따른 검색시스템의 검색결과의 영향력에 대한 비교 실험을 하였다. 실험참가자 50명을 대상으로 일반검색엔진 α=0과 감성이 α=0.3과 α=0.7 으로 반영된 검색엔진의 검색 만족도를 통해 성능을 비교하는 실험을 진행하였다. 본 연구의 실험 결과는 α=0.7일 때, 평균 3.53점, α=0.3일 때, 평균 3.63점, α=0.7일 때, 평균 3.89점의 검색 만족도를 기록하였다. 일반검색엔진과 서로 다른 감성 지수를 반영한 감성검색엔진과의 T-test 검정을 통해, 감성지수가 α=0.7로 반영하는 감성검색엔진이 통계적으로 유의한 검색 만족도를 나타냄을 확인하였다.
본 연구에서 개발한 감성을 반영한 검색엔진은 기존에 접근하지 못한 감성의 영역을 기계적인 모델을 사용하여 접근할 수 있을 것이다. 이를 통해 음악, 영화, 쇼핑과 같은 검색플랫폼 등에서 상업적으로 활용될 시 유용할 것으로 기대된다.
또한 본 연구를 통해 검색시스템을 이용하는 사람의 감정상태를 기계적으로 파악할 수 있어 의료분야에서 활용할 가능성이 있을 것이라 예상된다.
Language
kor
URI
https://hdl.handle.net/10371/183097

https://dcollection.snu.ac.kr/common/orgView/000000170724
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share