Publications

Detailed Information

단어 임베딩 공간 사이의 선형 변환을 통한 키워드 사전의 구축 : 코스피 상장 기업의 다중 레이블 분류를 중심으로 : Building Keyword Dictionary via Linear Transformation between Word Embedding Spaces : The Case of Multi-label Classication for KOSPI Companies

DC Field Value Language
dc.contributor.advisor조성준-
dc.contributor.author민동영-
dc.date.accessioned2018-05-29T03:21:39Z-
dc.date.available2018-05-29T03:21:39Z-
dc.date.issued2018-02-
dc.identifier.other000000149373-
dc.identifier.urihttps://hdl.handle.net/10371/141449-
dc.description학위논문 (석사)-- 서울대학교 대학원 : 공과대학 산업공학과, 2018. 2. 조성준.-
dc.description.abstract시장 분석과 위험 관리를 위해 특정 기업이 어떤 업종에 속하는지 판단하는 일은 매우 중요하기 때문에, 실제 시장 상황을 적확하게 반영하는 객관적인 산업분류기준이 반드시 필요하다. 하지만 기존의 산업분류는 도메인 전문가들의 주관에 의해 이루어지므로 완전히 객관적일 수 없으며, 하나의 기업이 단 하나의 업종에만 속할 수 있다는 한계가 존재한다. 같은 기업이 분류기준에 따라 다른 업종에 속하기도 하고, 여러 사업부를 운영하는 기업이 하나의 업종에만 속하게 되어 시장 분석을 곤란하게 하는 것이다. 특히 한국의 코스피 시장은 다양한 사업부를 영위하는 기업과 여러 업종에 걸친 자회사를 소유하는 지주회사가 많아 기존의 산업분류체계로는 정확한 시장 분석이 쉽지 않다. 이에 본 연구에서는 사업보고서와 경제 뉴스를 각각 학습하여 산업군(industry group)과 단어를 수치화된 벡터로 표현하고, 두 벡터 공간 사이의 선형 변환 학습을 통해 키워드를 안정적으로 추출하여 사전을 구축하는 방법을 제안한다. 그리고 구축된 사전을 기반으로 하나의 기업이 여러 개의 업종에 부분적으로 속할 수 있도록 다중 레이블(multi-label)을 부여한다. 최종적으로 구축된 사전은 산업군 각각의 특징을 잘 표현하는 키워드들을 포함하고 있다는 것을 확인했으며, 해당 키워드들을 기반으로 부여한 다중 레이블은 실제 기업의 다양한 사업부를 반영한 결과를 보여주었다. 단순 키워드 기반의 분류가 가지는 한계도 존재하지만, 기존 산업분류체계의 한계를 충분히 보완한다고 볼 수 있다. 구축된 사전은 기업의 다중 레이블 분류(multi-label classication) 이외에도 기업 네트워크 분석, 뉴스 큐레이션, 코스피200 섹터지수의 보정 등에 활용할 수 있기에 그 가치가 높다고 판단된다.-
dc.description.tableofcontentsChapter 1 서 론 1
Chapter 2 관련 연구 4
2.1 산업분류 방법 4
2.2 Distributed Representation 6
2.2.1 Distributed Representation of Words 6
2.2.2 Distributed Representation of Documents 9
Chapter 3 제안하는 방법 10
3.1 Distributed Representation of Industry Group 10
3.2 단어 임베딩 공간 사이의 선형 변환 12
3.3 산업군 키워드 사전의 구축 14
Chapter 4 실험 결과 및 활용방안 15
4.1 데이터 설명 15
4.2 선형 변환 학습 결과 16
4.3 t-SNE를 통한 Doc2vec, Word2vec 학습 결과 시각화 17
4.4 사전 구축 결과 20
4.5 코스피 상장 기업의 다중 레이블 분류 25
Chapter 5 결론 및 의의 30
참고문헌 32
Abstract 39
-
dc.formatapplication/pdf-
dc.format.extent7712988 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject산업분류-
dc.subject사업보고서-
dc.subject경제 뉴스-
dc.subject분산 표상-
dc.subject선형 변환-
dc.subject키워드 사전-
dc.subject.ddc670.42-
dc.title단어 임베딩 공간 사이의 선형 변환을 통한 키워드 사전의 구축 : 코스피 상장 기업의 다중 레이블 분류를 중심으로-
dc.title.alternativeBuilding Keyword Dictionary via Linear Transformation between Word Embedding Spaces : The Case of Multi-label Classication for KOSPI Companies-
dc.typeThesis-
dc.description.degreeMaster-
dc.contributor.affiliation공과대학 산업공학과-
dc.date.awarded2018-02-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share