Publications

Detailed Information

단어 임베딩 공간 사이의 선형 변환을 통한 키워드 사전의 구축 : 코스피 상장 기업의 다중 레이블 분류를 중심으로 : Building Keyword Dictionary via Linear Transformation between Word Embedding Spaces : The Case of Multi-label Classication for KOSPI Companies

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

민동영

Advisor
조성준
Major
공과대학 산업공학과
Issue Date
2018-02
Publisher
서울대학교 대학원
Keywords
산업분류사업보고서경제 뉴스분산 표상선형 변환키워드 사전
Description
학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 2. 조성준.
Abstract
시장 분석과 위험 관리를 위해 특정 기업이 어떤 업종에 속하는지 판단하는 일은 매우 중요하기 때문에, 실제 시장 상황을 적확하게 반영하는 객관적인 산업분류기준이 반드시 필요하다. 하지만 기존의 산업분류는 도메인 전문가들의 주관에 의해 이루어지므로 완전히 객관적일 수 없으며, 하나의 기업이 단 하나의 업종에만 속할 수 있다는 한계가 존재한다. 같은 기업이 분류기준에 따라 다른 업종에 속하기도 하고, 여러 사업부를 운영하는 기업이 하나의 업종에만 속하게 되어 시장 분석을 곤란하게 하는 것이다. 특히 한국의 코스피 시장은 다양한 사업부를 영위하는 기업과 여러 업종에 걸친 자회사를 소유하는 지주회사가 많아 기존의 산업분류체계로는 정확한 시장 분석이 쉽지 않다. 이에 본 연구에서는 사업보고서와 경제 뉴스를 각각 학습하여 산업군(industry group)과 단어를 수치화된 벡터로 표현하고, 두 벡터 공간 사이의 선형 변환 학습을 통해 키워드를 안정적으로 추출하여 사전을 구축하는 방법을 제안한다. 그리고 구축된 사전을 기반으로 하나의 기업이 여러 개의 업종에 부분적으로 속할 수 있도록 다중 레이블(multi-label)을 부여한다. 최종적으로 구축된 사전은 산업군 각각의 특징을 잘 표현하는 키워드들을 포함하고 있다는 것을 확인했으며, 해당 키워드들을 기반으로 부여한 다중 레이블은 실제 기업의 다양한 사업부를 반영한 결과를 보여주었다. 단순 키워드 기반의 분류가 가지는 한계도 존재하지만, 기존 산업분류체계의 한계를 충분히 보완한다고 볼 수 있다. 구축된 사전은 기업의 다중 레이블 분류(multi-label classication) 이외에도 기업 네트워크 분석, 뉴스 큐레이션, 코스피200 섹터지수의 보정 등에 활용할 수 있기에 그 가치가 높다고 판단된다.
Language
Korean
URI
https://hdl.handle.net/10371/141449
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share