Publications

Detailed Information

웹 피드로부터의 효율적인 문서수집을 위한 자원할당 기법에 대한 연구 : Resource Allocation Policies for Efficient Feed Fetching on the Web

DC Field Value Language
dc.contributor.advisor박종헌-
dc.contributor.author지철규-
dc.date.accessioned2017-07-13T06:02:50Z-
dc.date.available2017-07-13T06:02:50Z-
dc.date.issued2012-08-
dc.identifier.other000000002589-
dc.identifier.urihttps://hdl.handle.net/10371/118227-
dc.description학위논문 (박사)-- 서울대학교 대학원 : 산업공학과, 2012. 8. 박종헌.-
dc.description.abstractA polling-based approach among the methods applicable to fetching feeds is considered, which bases on a specific schedule for visiting feeds. This model proposes a resource allocation policy that can optimize both objectives. Extensive experiments have been carried out to evaluate the proposed model, in comparison with the existing alternative methods. A model with the objective function for minimizing the fetching delay, subject to the total available fetching resources and the lower bound on the number of retrievals allocated to an individual feed is proposed. The amount of resources allocated to each feed was then obtained by solving an optimization model.-
dc.description.abstract웹 상에서 트위터 (Twitter)나 페이스북 (Facebook)과 같은 소셜 미디어가 대표적인 정보 생성 및 소비 방법으로 사용됨에 따라, 이러한 서비스들로부터 생성/제공되는 정보의 양이 폭발적으로 증가하고 있다. 이들 서비스의 대부분은 사용자들이 발행하는 정보를 피드 (feed)의 형태로 제공하고 있기 때문에, 최근 많은 정보 공유 서비스와 실시간 검색 엔진은 피드를 활용하여 정보를 수집하고 있다. 위와 같은 서비스들은 최신의 정보를 사용들에게 전달하기 위해서 정보가 발행되었을 때 지연 없이 획득하여 활용하고자 하고 있다. 피드로부터 정보를 수집하는 과정에서 발생할 수 있는 지연은 크게 두 가지로 분리할 수 있다. 즉, 정보의 발행 시간에서부터 수집될 때까지의 시간 사이의 지체인 수집 지연과 수집 시간에서부터 색인하는 시간까지의 지체인 색인 지연으로 분류할 수 있다. 정보의 최신성 (freshness)을 극대화하기 위해서 이러한 두 가지 지연을 최소화해야 한다. 뿐만 아니라, 위 서비스들은 정보를 가급적 많이 수집함으로써 색인의 범위 (coverage)를 최대화해야 하는 과제를 가지고 있다. 결과적으로 정보의 최신성과 범위를 동시에 확대·충족해야 하는 문제를 가지고 있는 것이다.
이러한 흐름에서, 다양한 실시간 정보 배포 프로토콜을 통해 최신성과 범위가 개선되고 있으나, 아직 많은 수의 사이트들은 실시간 정보 배포 프로토콜을 활용하지 않고 있어 대부분의 정보 수요 주체들이 직접 수집하고 있다. 본 논문에서는 문서 직접 수집 방식에 의하여 운영되는 체제하에서 수집 지연을 최소화하며, 동시에 수집되는 문서의 양을 극대화하는 효율적인 피드 수집 방법을 연구한다. 구체적으로, 문서 최신성 및 수집 문서의 양 최대화를 달성하기 위한 최적 자원 할당 방법을 제시하였으며, 이를 광범위 실험을 통하여 제안된 모델에 대한 평가를 수행하고, 기존의 관련 모델들과 비교하였다.
-
dc.description.tableofcontentsI. 서 론 1
1.1 연구의 동기 및 배경 1
1.2 연구의 목적 5

II. 관련 이론 및 기존 연구 6
2.1 피드의 구조 6
2.2 피드 기반 서비스의 문서 수집 체계 14
2.3 시간에 따른 정보 손실(decay) 관련 연구 25
2.4 기존 정보수집 최신성 및 자원 할당 관련 연구 28

III. 피드 수집 자원 할당 모형 38
3.1 문제 정의 38
3.2 자원 할당 모형 수립 45

IV. 자원 할당 모형 성능 평가 55
4.1 통합 성능 평가 지표 55
4.2 데이터 집합 57
4.3 민감도 분석 59
4.4 성능 비교 63

V. 결론 및 향후 연구방향 75
5.1 결 론 75
5.2 향후 연구방향 77

참 고 문 헌 78
부 록 A: 실험 결과 85
부 록 B: 피드 수집기 모듈 96
Abstract 111
-
dc.formatapplication/pdf-
dc.format.extent2912373 bytes-
dc.format.mediumapplication/pdf-
dc.language.isoko-
dc.publisher서울대학교 대학원-
dc.subject피드-
dc.subject문서 수집-
dc.subject정보 획득-
dc.subject수집 지연-
dc.subject자원 할당-
dc.subject.ddc670-
dc.title웹 피드로부터의 효율적인 문서수집을 위한 자원할당 기법에 대한 연구-
dc.title.alternativeResource Allocation Policies for Efficient Feed Fetching on the Web-
dc.typeThesis-
dc.contributor.AlternativeAuthorCheolkyu Jee-
dc.description.degreeDoctor-
dc.citation.pagesvii, 111-
dc.contributor.affiliation공과대학 산업공학과-
dc.date.awarded2012-08-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share