Publications

Detailed Information

Efficient Exploration in Reinforcement Learning for Online Slate Recommender System : 강화학습 기반 온라인 슬레이트 추천 시스템에서의 효율적 탐색 방법

DC Field Value Language
dc.contributor.advisor오민환-
dc.contributor.author박승준-
dc.date.accessioned2023-06-29T02:08:16Z-
dc.date.available2023-06-29T02:08:16Z-
dc.date.issued2023-
dc.identifier.other000000176412-
dc.identifier.urihttps://hdl.handle.net/10371/193608-
dc.identifier.urihttps://dcollection.snu.ac.kr/common/orgView/000000176412ko_KR
dc.description학위논문(석사) -- 서울대학교대학원 : 데이터사이언스대학원 데이터사이언스학과, 2023. 2. 오민환.-
dc.description.abstractDeep reinforcement learning (RL) is a promising approach for recommender systems, of which the ultimate goal is to maximize the long-term user value. However, practical exploration strategies for real-world applications have not been addressed. We propose an efficient exploration strategy for deep RL-based recommendation, RESR. We develop a latent state learning scheme and an off-policy learning objective with randomized Q-values to foster efficient learning. Online simulation experiments conducted with synthetic and real-world data validate the effectiveness of our method.-
dc.description.abstract온라인 추천 시스템에서 사용자의 장기적 가치를 최대화하기 위한 방법으로 강화학습을 활용할 수 있다. 일반적인 추천 시스템과 다르게 강화학습 기반 추천 시스템은 사용자의 선택에 따른 변화를 포착하고 장기적 차원에서 사용자의 가치를 높일 수 있다. 본 논문에서는 강화학습을 실제 적용하는 과정에서 필요한 효율적인 탐색 방법을 다룬다. 우선, 강화학습 에이전트와 사용자 및 아이템으로 이루어진 추천 문제를 부분 관찰 마르코프 의사결정 과정(POMDP)을 이용한 순차적 의사결정 문제로 구성한다. 슬레이트(Slate)라고 불리는 여러 개의 아이템으로 구성된 리스트를 사용자에게 추천하는 문제를 풀고자 한다. 본 논문은 바로 관측이 어려운 사용자의 잠재 상태를 다룬다는 점에서 과거 연구의 일반화된 문제를 연구한다. 본 논문에서 제시하는 알고리듬인 RESR은 효율적인 학습을 위한 사용자의 잠재 임베딩 및 사용자 선택 모형 학습 방법과 더불어 랜덤화된 여러 개의 Q 함수를 샘플링하여 사후분포를 근사하는 방법을 활용한다. 온라인 시뮬레이션 실험에서 알고리듬의 성능을 비교·분석한 결과 제시된 방법이 탐색 효율성 측면에서 나은 성능을 보이는 것을 확인할 수 있었다.-
dc.description.tableofcontents1 Introduction 1

2 Related Works 4

3 Problem Statement 6

4 Method 9
4.1 Tractable Decomposition of Action Space 9
4.2 Latent User Representation 10
4.3 User Choice Model 10
4.4 Exploration via Randomized Q-Functions 13

5 Experiments 18
5.1 Online Simulation Environment 18
5.2 User Arrival and Departure 18
5.3 Fully Simulated Recommendation 19
5.4 Simulation using the Real-World Data 20
5.5 Results 22
5.5.1 Fully Simulated Recommendation 22
5.5.2 Simulation using the Real-World Data 24

6 Conclusion 26

A Appendix 27
A.1 Notation 27
A.2 Details of the Experiment 30
A.2.1 Fully Simulated Recommendation 30
A.2.2 Simulation using the Real-World Data 34
A.3 Algorithm 37

Bibliography 38

Abstract in Korean 43
-
dc.format.extentiii, 43-
dc.language.isoeng-
dc.publisher서울대학교 대학원-
dc.subjectDeep RL-
dc.subjectRecommender System-
dc.subjectExploration-
dc.subjectSimulation-
dc.subjectPOMDP-
dc.subject.ddc005-
dc.titleEfficient Exploration in Reinforcement Learning for Online Slate Recommender System-
dc.title.alternative강화학습 기반 온라인 슬레이트 추천 시스템에서의 효율적 탐색 방법-
dc.typeThesis-
dc.typeDissertation-
dc.contributor.AlternativeAuthorSeung Joon Park-
dc.contributor.department데이터사이언스대학원 데이터사이언스학과-
dc.description.degree석사-
dc.date.awarded2023-02-
dc.identifier.uciI804:11032-000000176412-
dc.identifier.holdings000000000049▲000000000056▲000000176412▲-
Appears in Collections:
Files in This Item:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share