Publications

Detailed Information

Efficient Exploration for Online Advertising Auctions : 강화학습 기반 온라인 광고 비딩

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

박수연

Advisor
오민환
Issue Date
2023
Publisher
서울대학교 대학원
Keywords
Deep Reinforcement LearningReal-time BiddingExploration
Description
학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2023. 8. 오민환.
Abstract
This paper addresses the challenges of real-time bidding, where advertisers bid in real-time to win an auction and maximize profit. We propose a novel algorithm that jointly optimizes ad allocation and bidding policy in an online fashion. While previous works have focused on learning either of these components or learning in offline settings with pre-collected data, our algorithm is designed for online advertising auctions. In online advertising auctions, the censored feedback which is provided only when the advertiser wins the auction poses a challenge. Therefore, a proper exploration strategy is essential for learning in online advertising auction environments. Our algorithm integrates exploration in ad allocation and exploration in bid price in an elegant way, using optimistic estimation and count-based control terms. We employ neural networks to estimate the value of each ad and the probability of winning given contextual information. By efficiently collecting data and exploring the dynamic auction environment, our approach outperforms baseline algorithms that do not perform systematic exploration. Additionally, we extend the method to multiple bidding scenarios where agents participate in different auctions. Overall, this paper presents a novel learning algorithm for online advertising auctions which jointly optimizes ad allocation and bidding. We highlight the importance of proper exploration in online advertising auctions as well as the extension to multiple bidding scenarios, by comprehensive experiments.
강화학습 기반의 온라인 광고 옥션 학습에 대한 논문입니다. 이 논문에서는 광고 할당과 입찰 정책을 공동으로 최적화하는 새로운 알고리즘을 제안합니다. 이전 연구들은 이러한 구성 요소 중 하나를 학습하거나 사전 수집한 데이터와 오프라인 환경에서 학습하는 데 초점을 맞추었으나, 우리의 알고리즘은 온라인 광고 경매를 위해 설계되었습니다. 온라인 광고 경매에서는 학습에 대한 피드백이 경매에서 이길 때에만 제공되기 때문에 학습에 필요한 데이터를 수집하는 것이 어렵습니다. 따라서 온라인 광고 경매 환경에서 적절한 탐험을 통해 학습에 필요한 데이터를 효율적으로 수집하는 것이 중요합니다. 우리의 알고리즘은 Optimistic 추정과 카운트 기반 보너스 사용하여 광고 할당과 입찰 가격에 대한 효율적인 탐험 방식을 제안합니다. 우리는 각 광고의 가치와 정보가 주어졌을 때 경매에서 이길 확률을 추정하기 위해 딥러닝 기반의 모델을 사용합니다. 우리의 알고리즘은 기존의 단순한 탐험 방식과 비교하여 Regret 기준 더 높은 성능을 보였습니다. 또한 우리는 에이전트가 서로 다른 경매에 참여하는 멀티 비딩 환경으로 실험을 확장하여 멀티 비딩에서도 높은 성능을 확인하였습니다. 요약하자면, 이 논문은 광고 할당과 입찰을 공동으로 최적화하는 온라인 광고 경매를 위한 새로운 학습 알고리즘을 제시하고, 온라인 광고 경매에서 적절한 탐험의 중요성을 보여줍니다.
Language
eng
URI
https://hdl.handle.net/10371/196714

https://dcollection.snu.ac.kr/common/orgView/000000177588
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share