Browse

군집화 기법과 문서 순위를 이용한 한국어 트윗 상의 토픽 추출 : Topic extraction on Korean tweets using clustering and document ranking

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors
강성진
Advisor
조성준
Major
공과대학 산업공학과
Issue Date
2013-08
Publisher
서울대학교 대학원
Keywords
트위터한국어 트윗군집화문서 순위토픽 추출
Description
학위논문 (석사)-- 서울대학교 대학원 : 산업공학과, 2013. 8. 조성준.
Abstract
트위터(Twitter)는 전세계적으로 가장 많이 사용되는 마이크로 블로깅 서비스(microblogging service)로 실시간 정보 공유가 가능한 특성을 지니고 있기 때문에 많은 대중들에게 빠르게 영향을 준다. 하지만 트위터 상에서 의미있는 정보를 찾는 과정에는 어려움이 많다. 하루에 작성되는 트윗(tweet)의 양은 2억 건이 넘었고, 이 중 대부분은 의미 없는 잠답과 중복되는 내용이다. 그렇기 때문에 트위터 상에서 정보를 얻으려면 같은 토픽에 대해서는 하나의 묶음으로 정보를 제공해야 할 필요성이 존재한다. 이와 관련해 활발한 연구가 이루어지고 있는 영어 트위터와는 달리 한국어 트위터에 대한 연구는 전무한 실정이다.
따라서 본 연구에서는 한국어 트윗 상에서 토픽을 추출하는 전 과정을 제안한다. 연구에서 소개하는 방법은 네 단계로 이루어진다. 첫 단계에서는 트위터에서 제공하는 오픈 API를 이용하여 한국어로 작성된 트윗들을 수집한다. 두 번째 단계에서는 수집한 트윗들을 분석이 가능한 벡터 스페이스 모델 형태로 변환한다. 각 트윗에서 명사만을 추출하여 분석에 사용한다. 기존 사전에 네이버 실시간 검색어와 네이버 핫토픽 키워드들을 추가한 사용자 정의 사전을 사용하여 신조어, 약어 등 인터넷 공간에서 실제로 사용되는 언어를 보강한다. 세 번째 단계에서는 군집화 기법을 통해 트윗들을 주제 별로 하나의 묶음으로 나눈다. 네 번재 단계에서는 세 번째 단계에서 생성된 군집 내에서 각 군집을 잘 설명할 수 있는 트윗을 선정하기 위해 트윗들의 순위를 매기고, 상위 순위 트윗들을 이용하여 토픽을 추출한다.
군집화 결과 총 평균이 99.4%의 순수도(purity)를 보임에 따라 각 주제별로 트윗의 군집화가 잘 이루어졌음을 알 수 있었다. 또한 정성적인 내용 분석을 통하여 군집 별로 상위 순위 트윗들과 하위 순위 트윗들을 비교함으로써 상위 순위 트윗들로 토픽을 추출하는 것이 각 군집을 대표하는 내용을 잘 반영하는 것으로 나타났다.
Twitter is the most used microblogging service in the world which spreads effects to the mass quickly because of real-time sharing of information. But it is not easy to find useful information on twitter. More than 200 million tweets are up-dated daily and most of them are meaningless or repetitive. That is why there is a need for combining information within the same topic in order to acquire information on twitter. Active research is in process in the case of English Twitter related to this topic, whereas there are none in the Korean Twitter.
So this research offers the entire process of extracting topics from the Korean Tweets. The method introduced in this research consisted of four steps. In the first step, tweets are collected. Using the open API provided by Twitter, one collects Korean tweets. In the second step, one transforms these tweets into a vector space model so that it could be analyzed. Only nouns extracted from each tweets are analyzed. Simultaneously, we use a custom-designed dictionary which starts from the original dictionary, then adds the Naver real-time search word and Naver hot topic keyword. In the third step, tweets are divided into groups according to topic through clustering. In the fourth step, tweets that have been grouped from step three are ranked, and the high-ranked tweets are used to extract important topic.
As a result of calculating the purity in order to evaluate the clustering result, the total average was verified to be clustered according to topic at the rate of 99.4%. By comparing high-ranked and low-ranked tweets by groups, it was shown that extracting topics from high-ranked tweets well represented each groups important topic.
Language
Korean
URI
https://hdl.handle.net/10371/123558
Files in This Item:
Appears in Collections:
College of Engineering/Engineering Practice School (공과대학/대학원)Dept. of Industrial Engineering (산업공학과)Theses (Master's Degree_산업공학과)
  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse