Publications

Detailed Information

Financial Risk Assessment Automation: Hot Topic Detection in Speeches, Sentiment Analysis of News Articles, and Spam Filtering on Twitter : 금융위험 평가 자동화: 연설문 핫토픽 탐지, 뉴스 감성 분석 및 트위터 스팸 필터링

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박지혜

Advisor
조성준
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Text miningFinancial textFinancial risk assessmentAutomated systemHot topic detectionSentiment analysisSpam filteringCentral banker's speechEconomic news articleCorporate reportTwitter
Description
학위논문(박사) -- 서울대학교대학원 : 공과대학 산업공학과, 2023. 8. 조성준.
Abstract
Text mining refers to the process of extracting interesting and significant information from textual data. It encompasses the process of performing various tasks such as hot topic detection, sentiment analysis, and spam filtering using a variety of text analysis tools including purpose-built frameworks, sentiment lexicons, and pretrained language models. Due to its broad applicability, text mining has been widely used to support decision making in various domains including politics, economics, and society. Especially, numerous researchers have attempted to assess financial risk by applying text mining techniques to financial texts. Since text mining-based approaches are less expensive in terms of time, human labor, and domain expertise than manual approaches, text mining enables real-time risk assessment that requires prompt detection of rapid changes in the financial domain. Most previous studies on financial text mining have directly applied general-purpose text analysis tools to financial texts. However, financial texts exhibit several linguistic characteristics that are distinct from those of general domain texts. Although several researchers have attempted to incorporate domain specificity of financial texts into text analysis tools, the detection of lexical items that play a crucial role in automated financial risk assessment has not been discussed sufficiently.
In this dissertation, financial domain-specific text analysis tools that can detect hot topics, sentiment words, and spam messages, respectively, are proposed. The proposed tools would contribute to the automation of financial risk assessment by supporting early warning, explainable market sentiment analysis of news articles, and spam filtering on real-time data feeds, respectively. First, a hot topic detection framework that incorporates the temporal importance of keywords is proposed. The framework is applied to speeches made by the chairs of a central bank, showing the possibility of text mining-based early warning. Second, an automatically constructed sentiment lexicon addressing the financial ontology that the sentiment of a word may change depending on the presence of directional expressions is proposed. The lexicon is applied to benchmark datasets regarding economic news headlines, demonstrating the explainability of the market sentiment analysis process. Third, company-related knowledge-enhanced language models are proposed to detect spam messages that promote non-blue-chip stocks as if they are blue-chip stocks. Specifically, a framework that uses corporate reports as a textual knowledge base is proposed to enhance factual knowledge of the model. The framework employs a novel company name masking method, which masks tokens associated with company names, allowing the model to learn company-related factual information in a sentence. The spam filtering performance of language models built through the proposed framework is validated using Twitter benchmark datasets to demonstrate the viability of automatic spam filtering for real-time data feeds to automated systems.
텍스트마이닝은 텍스트 데이터로부터 유용한 정보를 추출하는 과정을 일컫는 개념이다. 이는 특정 목적을 위해 설계된 프레임워크, 감성사전, 사전학습 언어모델 등의 텍스트 분석 도구를 활용하여 핫토픽 탐지, 감성 분석, 스팸 필터링 등의 과업을 수행하는 과정을 포괄한다. 텍스트마이닝이 그 광범위한 적용 가능성 덕분에 정치, 경제, 사회 등 다양한 도메인의 의사결정 과정을 돕는 데에 활용되어 온 한편, 많은 연구자들이 금융 텍스트에 텍스트마이닝을 적용하여 금융위험을 탐지하기 위한 시도를 수행해왔다. 텍스트마이닝 기반 방법은 수작업 기반 방법보다 시간, 노동력, 전문 지식 측면에서 비용 효율적인 방법으로서, 금융 도메인의 급변하는 양상을 신속하게 감지하는 실시간 위험 평가를 가능케 한다. 금융 텍스트마이닝과 관련한 대부분의 기존 연구들은 범도메인 텍스트 분석 도구를 금융 텍스트에 적용해왔다. 그러나 금융 텍스트는 일반 도메인의 텍스트와 구별되는 몇 가지 특징을 갖고 있다. 몇몇 연구자들이 텍스트 분석 도구에 금융 텍스트의 도메인 특수성을 반영하려는 시도를 수행해왔지만, 자동화된 금융위험 평가에 중요한 역할을 하는 어휘 항목을 탐지하는 것에 대해서는 아직 충분한 논의가 이루어지지 않았다.
본 논문에서는 핫토픽, 감성어 및 스팸 메시지를 탐지할 수 있는 금융 도메인 특화 텍스트 분석 도구를 제안한다. 제안된 도구들은 각각 금융위기 조기경보, 뉴스 기사 대상 설명가능한 시장심리 추정, 실시간 발생하는 데이터 대상 주식 관련 스팸 필터링을 지원함으로써 금융위험 평가 자동화에 기여할 것으로 기대된다. 첫째, 키워드의 시간적 중요도를 반영하는 핫토픽 탐지 프레임워크를 제안한다. 이 프레임워크는 중앙은행 총재의 연설문에 적용되어 텍스트마이닝 기반 조기경보시스템에의 가능성을 시사한다. 둘째, 어떤 단어의 감성이 그 주변에서 등장하는 방향성 단어의 존재 유무에 따라 변화할 수 있다는 금융 도메인 온톨로지를 반영하여 자동으로 구축된 감성사전을 제안한다. 경제 뉴스 헤드라인 벤치마크 데이터셋에 이 감성사전을 적용하여 제안하는 감성사전이 시장심리 추정 과정에 대한 설명력을 갖추었음을 입증한다. 셋째, 비우량주를 우량주인 것처럼 홍보하는 스팸 메시지를 탐지하기 위해 기업 관련 지식을 강화한 언어 모델을 제안한다. 구체적으로, 모델에 사실적 지식을 주입하기 위해 기업 보고서를 지식 기반으로 사용하는 지식 통합 프레임워크를 제안한다. 이 프레임워크에서 사용하는 마스킹 방법은 기업명에 해당하는 토큰을 마스킹함으로써 모델이 어떤 문장에 표현된 기업 관련 사실적 정보를 학습하게 한다. 제안하는 프레임워크를 통해 학습된 언어 모델의 스팸 필터링 성능은 트위터 벤치마크 데이터셋을 대상으로 검증되어 이러한 자동 스팸 필터링이 자동화 시스템에 데이터를 실시간으로 공급하는 데에 기여할 수 있다는 가능성을 입증한다.
Language
eng
URI
https://hdl.handle.net/10371/196333

https://dcollection.snu.ac.kr/common/orgView/000000178131
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share