/ Reinforcement Learning   Recommender Systems  

综述导读《A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions》

本文为强化学习/推荐系统方向小白入门必读经典综述,全文介绍了DRL的研究现状、回答了为什么DRL能应用在RS(推荐系统)中、罗列了新兴的DRL based RS的研究方向并提出了未来值得研究的方向、最后简要分析了DRL-based RS的一些问题。

关键词:DRL(Deep Reinforcement Learning/深度强化学习)、RS(Recommender Systems/推荐系统)

arxiv文献链接:A Survey of Deep Reinforcement Learning in Recommender Systems: A Systematic Review and Future Directions

1.Introduction

现如今,推荐系统已经有了许多代表性的研究成果,例如协同过滤、基于内容的推荐、矩阵分解以及本文提到的深度学习方法。传统的深度学习方法的问题在于很难快速适应用户快速变动的偏好,因为它们都是基于历史数据进行训练的,而DRL在交互式场景中则有着卓越的特性。
强化学习的本质是让初始化的智能体(agent)在环境中探索,通过环境的反馈(reward)来不断纠正自己的行动策略(policy),以期得到最大的reward。在推荐系统中,用户的需求会随时间动态的变化,agent不断探索的特性正好符合了推荐系统对动态性的要求,因此就把RL agent作为推荐系统。而agent不断探索如何满足用户的动态的需求,其实也是在不断尝试建模更长期的回报。这就引出了DRL-based RS的两大优势:1.满足用户的动态的需求;2.建模更长期的回报。

2.Background

Section 2对DRL的关键技术进行了描述,并介绍了DRL-based RS是怎么玩起来的。

2.1 Why Deep Reinforcement Learning for Recommendation?

DRL-based RS包括三个重要组成部分:1.environment construction;2.state representation;3.policy learning。
举个电商推荐系统的例子,environment construction是对真实环境的建模,虚拟环境包括模拟商品、模拟用户等等,这个虚拟环境用于和我们训练的agent进行交互。agent会观测当前时间t的$state_t$,然后选择向用户u推送商品i,并把这个策略发送给虚拟环境,然后虚拟环境会给出包含用户是否点击了商品i、用户是否购买了商品i等特征信息的状态$state_{t+1}$,以及相应的reward,最后将该状态$state_{t+1}$和reward再次输入agent,更新agent并进行下一轮的决策。

而state representation则是对状态的建模,状态是我们对环境的一种观测,例如上面的例子中,状态可以包含用户现在和曾经点击浏览、购买、拉黑过哪些商品,也可以包含目前有哪些商品、以及这些商品的特征。

Policy Learning是我们对agent的训练,agent会在一次次的交互中,学习到面对不同的state时,如何做出使整体reward最大的策略。

2.2 Preliminaries of Deep Reinforcement Learning

DRL是解决高维马尔可夫决策过程的一个好方法,DRL可以被分为两个类别:1.model-based;2.model-free。Model-based类的方法重在对环境进行建模,构造状态转移方程和reward计算式。而Model-free类的方法则不会建模环境,只关心在某个state下采用什么策略会得到最大的reward。Model-based类的方法比较笨重,因为许多真实环境是很难建模的,例如电商推荐,是完全无法预知用户在收到被推荐商品之后的下一步反应是什么,所以Model-free类的方法在最近更加热门。
从实现方法上来说,DRL可以被分为三个类别:1.valued-based;2.policy-based;3.hybrid methods
valued-based类的方法是会在观测到某个state之后,计算出所有策略的reward,然后取最大值对应的策略进行输出。而policy-based类的方法则是在观测到某个state之后,直接输出能获得最大reward的策略。但是因为policy-based方差比较大,容易塌缩在局部最优,所以一般采用actor-critic这种hybrid methods。

引用:【知乎】强化学习——策略梯度与Actor-Critic算法
20220406012055

2.3 DRL meets RS: Problem Formulation

DRL究竟是如何应用到Recommender Systems中的呢?我们需要对问题进行解剖。首先DRL可以视为一种马尔可夫决策过程(MDP),那么我们就需要定义在RS中DRL的$(S,A,P,R,𝛾)$分别表示什么含义。还是拿电商系统举例

  • State $S$:$s_t \in S$,$s_t$表示时间t时,用户的基本信息特征,商品的基本信息特征,用户历史数据(购买过、点击过、拉黑过的商品)以及其他自定义特征
  • Action $A$:$a_t \in A$,$a_t$表示时间t时,agent根据$s_t$向用户推送商品i的动作/策略。
  • Transition Probability $P$:$p(s_{t+1}|s_t,a_t)$表示当状态处于$s_t$时,agent采取动作/策略$a_t$后,状态从$s_t$转移到$s_{t+1}$的概率,说人话就是用户对商品进行某种操作的概率,但是这个只会在model-based的方法里需要,并且非常非常难以实现。
  • Reward $R$:也可以通俗理解为feedback,即在$s_t$时采取$a_t$(推荐某商品给用户)后取得的收益/反馈,比如用户点击浏览了该商品、用户购买了该商品等等。
  • Discount Factor $\gamma$:损失因子$\gamma$是用于计算reward的重要参数,t时刻的reward则为$ {\textstyle \sum_{0}^{\infty}}\gamma^k r_{t+k}$,如果$\gamma=0$则表示我们只关注实时的reward而不care未来的reward。

那么DRL-based RS的问题就可以定义为,给定了历史MDP$(S,A,P,R,\gamma)$信息,找到一个合适的推荐策略$\pi$ :$ S\to A$,使得推荐效果最佳,换言之,reward最大。
20220406020638

3. Deep Reinforcement Learning in Recommender Systems

在基于传统深度学习的推荐系统中,输入用户的历史行为(点击、浏览、购买)来分析用户的偏好,输出推荐的商品,但是这种模式很难应对用户快速变化的喜好,因为它们往往需要预训练,这是容易滞后的。举个简单的例子,在2021年喜欢科技产品的用户们都会频繁点击iPhone12的购买链接,但是2022年喜欢科技产品的用户们就不太喜欢iPhone12了,因为iPhone13成了他们的新宠。
强化学习则重在更新策略上,DRL网络模型中的agent会根据用户们对一系列商品的偏好/reward/feedback,来更新它的推荐策略,以适应快速变化的电商环境等等。

3.1 Model-based Deep Reinforcement Learning based Methods

Model-based的特点在于需要对环境进行建模,Model-based常见的方法有如下三种:

  • Policy-based methods:代表有IRecGAN,它使用GAN来增强policy learning的鲁棒性,并且能够通过仿真环境进行训练,而不会因为放到真实环境中训练产生额外的成本。简单来说就是通过历史的数据来训练一个GAN,使得它能生成一些虚拟用户,并且每个用户都能有自己的偏好。然后再通过policy learning去训练一个agent和它进行交互并不断提升自己的推荐策略。
  • Value-based methods:这里不同于Q-learning,相关工作有GVI(Gradient Value Iteration),GVI会通过状态之间的转移概率和到达每种状态会获得的reward来不断更新策略,但是转移概率很难以获取。包括GoalRec其实也是需要根据用户历史的路径来总结出哪条路能让用户的reward最大。
  • Hybrid methods:混合型方法则是在Policy-based和Valued-based中取了折中,使其不会掉入局部最优解中,这一点和Model-free的模型其实很像,可以参考后面Model-free的讲解。

总结下来,Model-based是通过训练一个模型对真实环境进行仿真,然后在真实环境中完成一个任务时,现在这个虚拟环境中演练一遍找到最优解,再放到真实环境中进行行动。但是这种模型非常难以训练,只适用于一些非常可控的环境,如训练机械臂的封闭实验室,坐标、高度、力度都能很好的量化,然而推荐系统里用户心理的多变性是很难通过大一统的模型全盘概括的。

3.2 Model-free Deep Reinforcement Learning based Methods

Model-free就比Model-based的模型简单粗暴的多,它根本不care转移概率之类的东西,它的思想和极大似然估计非常类似,边看可以边加以体会。主要类别也分为三种:

  • Value based methods:经典代表有Q-learning,Deep Q-learning以及各种变体,DRN则是第一个将DQN应用于推荐系统的工作,DRN设计了Double DQN,建模用户的状态($s_t$),并根据用户对被推荐事物($a_t$)的反应(购买、点击等)来设计reward,来使得下式的期望达到最大值。


    DEERS则提出负面的反应也是有价值的,在DRN中的reward的设计只考虑了正面的动作(购买、点击等),而负面的反应同样可以帮助网络学习到用户的偏好。而Lei等人使用attention机制给DQN中加入用户社交网带来的影响,因为关系亲密的人的喜好往往有一定的相似性。FeedRec则采用了time-LSTM网络去重构reward的计算方法,此前都是直接在每一个step乘上折扣因子,这显然不太合理,因为中间的一个step可能会对最后一个step影响非常大。
    Slate-Q每次推荐的item都是一捆一捆,比如每次推送十个item,这样可以有效降低large action spaces带来的计算压力,听起来有点类似于batch Gradient descent?
    DRCGR应用了CNN去捕捉用户的积极反馈,并且根据GAN来对消极反馈进行建模。GCQN应用了GCN到DQN中将状态和动作构建成图的形式,KGQR、SRDQN都是类似的图类DQN。
    在推荐和广告业中,,GMV用于衡量一个推荐系统给业务带来了多少收益。Rec/Ads Mixed(RAM)则将广告和推荐视作两个部分,因为这两个部分可能会互相产生坏的影响,因为广告是资本家想让你看到的东西,推荐是你想看到的东西,DEARS通过两个RNN分别去捕捉用户对广告和推荐的偏好,并输出构建成一个state,在通过这个state输出广告策略。

  • Policy based methods:Value based methods需要在每一个state计算所有动作的Q值并选择最大的Q值对应的推荐策略,那Policy based methods则更为简单粗暴,直接输出推荐策略。Policy-based的DRL可以被分为两个派别:Constrained Policy Optimization(CPO)和policy gradient,CPO是用来识别历史反馈和当下反馈的差异性的,并根据CPO的结果对推荐策略进行升级。
    而Policy gradient类的方法旨在直接优化策略$\pi$而不像DQN是去估计Q-value,经典代表REINFORCE方法的计算式如下:


    PGCR在REINFORCE的基础上引入了上下文信息。
    Wang等人在REINFORCE中加入CNN和attention机制使得推荐系统更具有可解释性。
    Chen等人增加了REINFORCE的可扩展性以应对在连续场景下更庞大的动作集,他们在REINFORCE中引入了策略修正梯度估计器去减少每个梯度的方差。

    Xu等人同样也发现了REINFORCE方法高方差的问题,(这里补充解释下,高方差就意味着容易塌缩到局部最优解),然后他们提出了PPG方法来解决这个问题。
    此外,weight capping、self-normalized importance sampling都被用于减少方差,采样也是一个容易导致高方差的诱因,因为新采样的路径不可避免的依赖于历史采样路径。
    另外一个policy gradient的派别则是采用policy network。Montazeralghaem等人设计了policy network去挖掘特征,计算相关reward来帮助agent做出决策。和DQN非常相似的地方在于,这个工作也使用了nn去近似计算Q-value和policy。
    Jie等人在policy network中引入了时空特征信息去帮助agent理解更复杂的特征,例如在滴滴这种打车软件中,需要考虑现在和未来的空余车辆信息。
    Yu等人对多种信息进行了融合,并通过REINFORCE ResNet、attention分别对视觉信息和文本信息进行炼丹,然后得出两个reward,再融合成一个reward。
    知识图谱(KG)也被广泛的使用于RS中来增强可解释性和推荐性能。Wang等人提出了KERL来将KG和REINFORCE算法进行融合,帮助策略网络理解图类信息。
    Xian等人提出了Policy-Guided Path Reasoning (PGPR),他将整个环境视作一个知识图谱。
    Wang等人提出了knowledge graph policy network,将KG融入policy network中并使用REINFORCE进行训练,和GCQN类似的事,attention机制也被用于此来建模相邻结点间的信息。
    因为on-policy的带来的收敛困难的问题,使其很难应用于大型的推荐系统中。Chen等人提出TPGR,它设计一个树状的policy gradient方法去分层解决大型的离散的action space。
    policy-gradient也可以被扩展为deterministic policy gradient(DPG),Hu等人提出DPG-FBE,通过使用search session MDP来解决样本数量有限的问题。(❓这里我没看懂什么意思

  • Hybrid based methods:混合型里最有代表性的是actor-critic算法,这是强化学习的老朋友了。critic网络使用DQN来评估某状态下采取某动作策略的Q-value,而actor则采用policy-gradient网络去生成动作策略。

    Zhao等人提出LIRD,将actor-critic框架用于进行list-wise推荐,并又将其扩展至page-wise推荐,并发表了DeepPage。
    此外也有一些工作聚焦于top-aware recommendation、treatment recommendation、allocating impressions等等。Liu等人提出了SLC去考虑推荐物品的位置信息,因为位于榜首的物品总是会获得更多的点击,他们希望能降低位置带来的bias。
    同样的,KG也被用于actor-critic方法,Chen等人提出KGRL来整合知识图的大量信息,以帮助critic更好地评估生成的策略。
    Zhao等人认为人类的示范可以有效提高路径搜索的能力,并提出了ADAC,它不仅加入了KG,也将对抗式模仿学习(imitation learning)应用在搜索过程中。
    Feng等人提出了MA-RDPG,通过multi-actor强化学习来处理多情景的任务,不同的actor之间可以交换信息,但He等人发现交换信息的机制会影响actor彼此之间的独立性,反而会损害最后的结果,所以移除了它。
    Zhang等人发现在推荐汽车充电站的应用中,需要考虑很多不同的因素,例如现在的充电站供应有哪些,未来的充电站供应有哪些,未来用户的需求是什么,这些都会影响充电站的推荐策略。
    He等人提出了soft actor-critic(SAC),SAC主要用于提升随机策略中的探索性和稳定性。
    Zhao等人也使用了multiple actor-critic网络来学习多个目标,并将推荐任务划分为两个模块:1.探索长期行为,2.捕捉短期行为,最后的推荐策略则根据两个模块统一决策。

总结下来,DQN是DRL第一个被应用于RS中的方法,但是它只适用于小型离散的动作空间,所以不适用于大型的推荐系统,而policy gradient方法则太容易收敛至局部最优使其方差很大。actor-critic汇聚了DQN和policy gradient的优点。尽管如此actor-critic依然有着DQN和DPG缺点,例如难以定义reward function,以及较差的探索能力。

3.3 Component Optimization in Deep Reinforcement Learning based RS

在DRL-based RS相关课题中,有一些工作着手于优化子能力,如environment、state representation、reward function。

3.3.1 Environment Simulation and Reconstruction

许多仿真环境都可以用于评估深度强化学习,例如OpenAI gym-based environment(这个和李宏毅老师的强化学习作业用到的环境是一样的)和MujoCo。但是不幸的是,这两个都不适用于推荐系统。
目前的DRL-based RS的工作都是使用离线数据进行评估或者直接部署到线上环境去评估,这种方法的缺陷在于不同的研究工作对环境的构造方法是不一样的,导致直接对比最终结果是很不公平的。而使用离线数据时,用户兴趣的多变性、环境的多变性是很难维持的,而部署到线上又会浪费大量的成本。所以,标准化的仿真环境是一个可行的解决方式。相关工作有RecSim、RecoGym、VirtualTB、Recsimu、PyRecGym、MARS-Gym等等。

3.3.2 State Representation

状态的表示是DRL-based RS中的一大组成部分,好的state表示会很大程度影响推荐的性能,毕竟state是agent对environment的一种观测,如果观测到的信息不全面、有偏差,最后训练得到的结果也不会很好。
Liu等人的研究(如下图)中,通过Attention、Pooling等方法来进行状态表达。state representation network的会和policy network一同训练,这会增加一些模型的复杂度。

20220407155721

3.3.3 Robustness of Reward Functions

reward function是包括DQN在内的诸多方法的关键因素。Kostrikov发现在一些absorbing state中,agent会得出为0的reward,这会对policy learning造成损害,因为立即回报为0意味着这个state为终止态了。在一些state中,零奖励隐含地分配给吸收状态,所以reward function就直接赋了0值。
Chen等人提出了鲁棒DQN方法,对reward function进行了改造,来提高鲁棒性。如下图:

4. Emerging Topics

Section 4列举了一些前沿新兴的研究方向。

4.1 Multi-Agent and Hierarchical Deep Reinforcement Learning-based RS

多智能体分层强化学习的核心思想是将推荐系统拆分为多个子系统/子任务。一个推荐系统包括很多任务如搜索、排序、推荐、广告、个性化等等,每个任务有自己的agent。

HDRL(hierarchical DRL),它将负责的任务划分为多个子模块,并让agent对每个模块都学习相应的策略。HDRL只有一个agent,但是这个agent包含一个meta-controller和几个controllers。meta-controller用于划分任务,其他controllers分别对指定任务进行学习策略。也有一些研究将meta-controller用于推荐,其他controller根据用户偏好来搜索相应的频道。Zhang等人将HDRL用于MOOC慕课课程推荐中,其中meta-controller就是用于推荐,而其他controller用于构建用户画像(profile)。

Multi-Agent RL(MARL)是强化学习的一个子领域,用于同时学习多个策略。MADRL表示用深度学习进行MARL。Gui等人将MADRL用于推特的推荐中,其中包括三个agent,分别用于生成不同的representation,包括查询文本、作者的历史文本、候选用户的历史文本。而最终的推荐则会基于这三个representation。Feng和He则分别提出不同的agent之间可以相互协作或彼此独立。

Hierarchical multi-agent RL(HMARL)表示MARL和HDRL可以融合起来,(反正就是炼丹),相关工作可以看看Yang等人对HMADRL的应用[Hierarchicaldeepreinforcementlearning
for continuous action control]。
HMADRL会是未来最合适的解决复杂推荐场景的办法,值得研究下🧐。

4.2 Inverse Deep Reinforcement Learning for RS

逆向深度强化学习可以看看这篇教程。为什么需要IRL呢?因为目前为止,reward function都是人为设计的,但是仅仅通过用户是否点击了一个商品是无法判断出用户的长线目标(比如最终购买)的。但是人为设计一个非常完美的reward function是不太可能的,我们无法考虑到所有的隐含条件。所以一些工作将IRL或者生成式对抗模拟学习(GAIL)引入来替代reward function。

4.3 Graph Neural Networks for Boosting DRL-based RS

图数据和KG在推荐系统中被广泛使用。图可以利用用户和推荐者之间的交互进行推理或提高可解释性。Graph embedding在RS中被用于处理图数据,以及状态表达。Wang等人提出KGCN知识图谱卷积网络去捕捉实体之间高维度数据的相似性(没看懂,我要去补习一下GCN的知识了)。
在DRL-based RS中,GCN、GAT(Graph Attention Network)和Q-learning又是一堆融合,使其在state representation阶段表现更好。

4.4 Self-Supervised DRL-based RS

自监督学习(SSL)是指模型完全不需要标记好的数据就可以自己训练。在机器人领域,SSL受到了极大的关注。Zeng等人证明SSL-DRL可以用于帮助agent学习两种相似策略之间的协同效应,以使得agent能完成两种不同的任务。一些研究也表明SSL-DRL可以增加RL的可解释性。
Xin等人使用SSL在RS中提供负面的反馈来增加推荐的性能。总的来说,作为无监督学习的一种方法,SSL提供一个新的思路,通过寻找不同state中的相似的模式pattern,来解决定义reward function的难题。

5. Open Questions

Section 5中作者指出了目前DRL-based RS研究中的几大问题和挑战,对未来研究有着建设性指导意义。

5.1 Sample Efficiency

采样效率低是model-free的DRL中一个常见的问题。因为没有人能保证样本是不是有用的,如果样本没什么价值,agent也不会学习,换言之,agent只会学习值得学习的样本。一个通用的解决方案是experience replay,但是它只限于在off-policy的方法上使用。但是该方法也会收到采样效果差的问题,因为我们并不知道哪些历史样本是值得被replay的。Isele和Cosgun则提出selected experience replay方法去讲有价值的experience存放在一个buffer中,并进行回放来增强采样效率。但是这种方法在面对庞大的action space时也存在收敛太慢的问题。Chen等人则设计了一个user model来进行辅助学习,让agent更多的根据活跃用户的数据更新推荐策略。

5.2 Exploration and Exploitation

探索和挖掘难题是RL研究中一个经典问题,通俗来说就是agent是需要更多的尝试新的动作/策略,还是根据老的策略和reward来更新自己。许多DQN类的方法会在replay buffer塞满之前一直探索,然后在buffer满了之后开始挖掘buffer里的历史经验。因此,我们需要一个超级大的buffer来塞入所有可能的动作/策略。此外,𝜖-greedy目前看来是个不错的方法,但是在涉及到KG时,图搜索方法或许会得到更好的性能。

5.3 Generalizing from Simulation to Real-World Recommendation

目前的DRL工作主要是在仿真环境或者离线数据中进行的。因为这会和真实的环境产生比较大的gap,仿真环境中没有涉及到了领域知识或者社会影响,这导致它们很难在一些专有领域的推荐工程中表现良好。如何减小这个gap也是一个很具有挑战性的课题。
Sim2real使用迁移学习方法将DRL策略从仿真环境迁移到现实环境,它通过领域适配技术帮助agent迁移学习到专有领域的策略,具体来说,它采用GANs通过生成不同的样本帮助agent进行适应。RLCycleGAN则是一种应用于视觉任务的sim2real方法。但是sim2real过于新兴,还需要更多的研究工作来表明它能适用于真实复杂的任务场景。

5.4 Bias(Unfairness)

Chen等人观察到用户行为数据不是实验性的而是观察性的,这导致了偏见和不公平的问题。
偏见如此普遍有两个原因。首先,用户行为数据的内在特征不是实验性的,而是观察性的。换句话说,输入推荐系统的数据会受到选择偏差的影响。例如,视频推荐系统中的用户倾向于观看、评价和评论他们感兴趣的电影。其次,存在分布差异,这意味着推荐系统中用户和项目的分布不均匀。推荐系统可能会受到“流行度偏差”的影响,其中流行的项目被推荐的频率远远高于其他项目。
然而,“long tail”中被忽视的产品对于企业来说同样重要,但它们不太可能被发现。
大量研究利用强化学习(RL)中的代理机制探索动态推荐系统,将信息搜索和决策视为顺序交互。如何有效地评估策略是基于 RL 的推荐器的一大挑战。在线A/B测试不仅昂贵且耗时,而且有时还会损害用户体验。Off-policy评估是一种替代策略,它使用历史用户行为数据来评估策略。然而,如前所述,用户行为数据存在偏差,这导致基于RL的RS的策略与最优策略之间存在差距。
为了消除偏见和不公平的影响,Chen等人使用历史策略概率的倒数来加权策略梯度。Huang等人引入了一个去偏步骤,在用于模拟用户行为之前纠正记录数据中存在的偏差。Zhou等人建议构建一个客户模拟器,旨在模拟环境并处理记录数据的选择偏差。

5.5 Explainability

一句话概括,Deep Learning好用但是不太好解释。目前常见的办法是用Attention和KG来增加RS的可解释性。

5.6 Robustness on Adversarial Samples and Attacks

对抗样本表明基于深度学习的方法很容易受到攻击。因此,鲁棒性成为RS和DRL的一个悬而未决的问题。具体来说,近年来,RS中的对抗性攻击和防御受到了很多关注,因为安全性在RS中至关重要。此外,DRL策略容易受到agent观察的对抗性扰动。Gleave等人提供了一种对抗性攻击方法来扰乱观察结果,从而影响学习到的策略。因此,提高鲁棒性是DRL和RS的共同利益。Cao等人为基于DRL的RS提供了一种对抗性攻击检测方法,该方法使用GRU将动作空间编码为低维空间,并设计解码器来检测潜在攻击。然而,它只考虑基于快速梯度符号法(FGSM)的攻击和策略定时攻击。因此,它缺乏检测其他类型攻击的能力。而且,它只提供了检测方法,而防御仍然是一个悬而未决的问题。我们相信零样本学习技术将是训练通用对抗性攻击检测器的一个很好的方向。(这一段我直接google翻译的,因为完全看不懂啥意思)

6 Future Directions

Section 6提供了一些DRL-based RS有潜力的未来研究方向。

6.1 Causal and Counterfactual Inference

因果关系(Causality)是起因和影响的关系。推断因果效应是计算广告、搜索引擎和推荐系统等许多应用中的一个基本问题。一些研究人员将强化学习与学习因果关系联系起来,以提高解决顺序决策问题的效果。
从我们的角度来看,因果关系可以通过引入因果的方向性来改善推荐结果。用户之前的选择会影响后续的推荐动作,通过将RL中的策略视为一种干预,我们可以检测RL中未观察到的混杂因素,并选择有关预期奖励的策略以更好地估计因果效应。

6.2 Offline DRL and Meta DRL

推荐系统经常需要解决多场景的问题,例如推荐和广告的结合。offline DRL和meta DRL为同时解决多场景问题提供了一个不错的方向。
离线DRL是一种新的DRL范式,可以与自监督学习和迁移学习等现有方法相结合,使其能更好的贴合现实世界中的不同任务和环境,这种泛化能力对RS至关重要。离线DRL(也称为批处理DRL)专为包含大量数据的任务而设计。给定一个包含过去交互信息的大型数据集,离线DRL使用该数据集进行多个epoch的训练,但不与真实环境交互。
Meta DRL被定义为DRL领域的元学习。Meta DRL是另一种帮助代理泛化到新任务或环境的方法。与离线DRL不同,元DRL包含一个由循环神经网络形成的记忆单元,用于记忆不同任务的共同知识。与离线DRL不同,元DRL不需要大量数据来训练。

6.3 Further Developments in Actor-Critic Methods

actor-critic通过A2C(Advantage Actor-critic)方法来解决高方差的问题,使用优势函数来替代以往的reward function,如下式:


但是这种方法依然会受到用于估计Q-value的$V(s_t)$的误差带来的困扰。Twin-Delayed DDPG(TD3)被设计出来用于解决上述的问题,梯度更新式如下:


还有两种用于提升actor-critic的方法,如Trust Region Optimization(TRPO)和Proximal Optimization(PPO),都是针对优势函数的魔改。
TRPO通过限制每个梯度step的大小来确保它不会变动的太剧烈,方法是在原本的优势函数上加上一个约束:


PPO和TRPO有着相同的目标,PPO是TRPO的简化版本,它引入了clip操作。(为啥我感觉它变得更复杂了)


Soft Actor-critic(SAC)在上文中已经提到了,它通过熵项鼓励agent去进行探索,这是一个解决exploration/exploitation困境的可行的方法。SAC还会为拥有相同吸引力的动作策略赋予相同的概率,这被证明可以有效的提高训练的稳定性。

7. Conclusion

在深度强化学习在推荐系统领域,本文为读者提供了非常全面的综述。并且提出了目前新兴的研究领域和未来比较有前景的研究方向。作为一个深度强化学习推荐系统的小白来说,这篇综述是非常值得一看的。如果有不懂的地方,推荐去看看原文的简明释义。