服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

WWW 2023|快手:通过强化学习提升用户留存

日期: 来源:机器之心收集编辑:

机器之心专栏

机器之心编辑部

短视频推荐系统的核心目标是通过提升用户留存,牵引 DAU 增长。因此留存是各APP的核心业务优化指标之一。然而留存是用户和系统多次交互后的长期反馈,很难分解到单个 item 或者单个 list,因此传统的 point-wise 和 list-wise 模型难以直接优化留存。

强化学习(RL)方法通过和环境交互的方式优化长期奖励,适合直接优化用户留存。该工作将留存优化问题建模成一个无穷视野请求粒度的马尔科夫决策过程(MDP),用户每次请求推荐系统决策一个动作(action),用于聚合多个不同的短期反馈预估(观看时长、点赞、关注、评论、转发等)的排序模型打分。该工作目标是学习策略(policy),最小化用户多个会话的累计时间间隔,提升 App 打开频次进而提升用户留存。

然而由于留存信号的特性,现有 RL 算法直接应用存在以下挑战:1)不确定性:留存信号不只由推荐算法决定,还受到许多外部因素干扰;2)偏差:留存信号在不同时间段、不同活跃度用户群体存在偏差;3)不稳定性:与游戏环境立即返回奖励不同,留存信号通常在数小时至几天返回,这会导致 RL 算法在线训练的不稳定问题。

该工作提出 Reinforcement Learning for User Retention algorithm(RLUR)算法解决以上挑战并直接优化留存。通过离线和在线验证,RLUR 算法相比 State of Art 基线能够显著地提升次留指标。RLUR 算法已经在快手 App 全量,并且能够持续地拿到显著的次留和 DAU 收益,是业内首次通过 RL 技术在真实生产环境提升用户留存。该工作已被 WWW 2023 Industry Track 接收。
 


作者:蔡庆芃,刘殊畅,王学良,左天佑,谢文涛,杨斌,郑东,江鹏
论文地址:https://arxiv.org/pdf/2302.01724.pdf

问题建模

如图 1(a)所示,该工作把留存优化问题建模成一个无穷视野请求粒度马尔科夫决策过程(infinite horizon request-based Markov Decision Process),其中推荐系统是 agent,用户是环境。用户每次打开 App,开启一个新的 session i。如图 1(b),用户每次请求推荐系统根据用户状态决策一个参数向量,同时 n 个预估不同短期指标(观看时长、点赞、关注等)的排序模型对每个候选视频 j 进行打分。然后排序函数输入 action 以及每个视频的打分向量,得到每个视频的最终打分,并选出得分最高的 6 个视频展示给用户,用户返回 immediate feedback。 当用户离开 App 时本 session 结束,用户下一次打开 App session i+1 开启,上一个 session 结尾和下一个 session 开始的时间间隔被称为回访时间(Returning time),。  该研究的目标是训练策略最小化多个 session 的回访时间之和。



RLUR 算法

该工作首先讨论怎么预估累计回访时间,然后提出方法解决留存信号的几个关键挑战。这些方法汇总成 Reinforcement Learning for User Retention algorithm,简写为 RLUR。

回访时间预估

如图 1(d)所示,由于动作是连续的,该工作采取 DDPG 算法的 temporal difference(TD)学习方式预估回访时间。
 


由于每个 session 最后一次请求才有回访时间 reward,中间 reward 为 0,作者设置折扣因子在每个 session 最后一次请求取值为,其他请求为 1。这样的设定能够避免回访时间指数衰减。并且从理论上可以证明当 loss(1)为 0 时,Q 实际上预估多个 session 的累计回访时间,。 

解决延迟奖励问题

由于回访时间只发生在每个 session 结束,这会带来学习效率低的问题。因而作者运用启发式奖励来增强策略学习。由于短期反馈和留存是正相关关系,因而作者把短期反馈作为第一种启发式奖励。并且作者采用 Random Network Distillation(RND)网络来计算每个样本的内在奖励作为第二种启发式奖励。具体而言 RND 网络采用 2 个相同的网络结构,一个网络随机初始化 fixed,另外一个网络拟合这个固定网络,拟合 loss 作为内在奖励。如图 1(e)所示,为了减少启发式奖励对留存奖励的干扰,该工作学习一个单独的 Critic 网络,用来估计短期反馈和内在奖励之和。即 。

解决不确定性问题

由于回访时间受到很多推荐之外的因素影响,不确定度高,这会影响学习效果。该工作提出一个正则化方法来减少方差:首先预估一个分类模型来预估回访时间概率,即预估回访时间是否短于  ;然后用马尔可夫不等式得到回访时间下界,; 最后用真实回访时间 / 预估回访时间下界作为正则化的回访 reward。


解决偏差问题

由于不同活跃度群体的行为习惯差异大,高活用户留存率高并且训练样本数量也显著多于低活用户,这会导致模型学习被高活用户主导。为解决这个问题,该工作对高活和低活不同群体学习 2 个独立策略,采用不同的数据流进行训练,Actor 最小化回访时间同时最大化辅助奖励。如图 1(c),以高活群体为例,Actor loss 为:
 


解决不稳定性问题

由于回访时间信号延迟,一般在几个小时到数天内返回,这会导致 RL 在线训练不稳定。而直接使用现有的 behavior cloning 的方式要么极大限制学习速度要么不能保证稳定学习。因而该工作提出一个新的软正则化方法,即在 actor loss 乘上一个软正则化系数:
 


这个正则化方法本质上是一种制动效应:如果当前学习策略和样本策略偏差很大,这个 loss 会变小,学习会趋于稳定;如果学习速度趋于稳定,这个 loss 重新变大,学习速度加快。当,代表着对学习过程不加任何约束。

离线实验

该工作把 RLUR 和 State of the Art 的强化学习算法 TD3,以及黑盒优化方法 Cross Entropy Method (CEM) 在公开数据集 KuaiRand 进行对比。该工作首先基于 KuaiRand 数据集搭建一个留存模拟器:包含用户立即反馈,用户离开 Session 以及用户回访 App 三个模块,然后在这个留存模拟器评测方法。
 


表 1 说明 RLUR 在回访时间和次留指标显著优于 CEM 和 TD3。该研究进行消融实验,对比 RLUR 和只保留留存学习部分 (RLUR (naive)),可以说明该研究针对留存挑战解决方法的有效性。并且通过和对比,说明最小化多个 session 的回访时间的算法效果优于只最小化单个 session 的回访时间。


在线实验
 


该工作在快手短视频推荐系统进行 A/B 测试对比 RLUR 和 CEM 方法。图 2 分别显示 RLUR 对比 CEM 的 App 打开频次、DAU、次留、7 留的提升百分比。可以发现 App 打开频次在 0-100 天逐渐提升乃至收敛。并且也拉动次留、7 留以及 DAU 指标的提升(0.1% 的 DAU 以及 0.01% 的次留提升视为统计显著)。

总结与未来工作

本文研究如何通过 RL 技术提升推荐系统用户留存,该工作将留存优化建模成一个无穷视野请求粒度的马尔可夫决策过程,该工作提出 RLUR 算法直接优化留存并有效地应对留存信号的几个关键挑战。RLUR 算法已在快手 App 全量,能够拿到显著的次留和 DAU 收益。关于未来工作,如何采用离线强化学习、Decision Transformer 等方法更有效地提升用户留存是一个很有前景的方向。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

相关阅读

  • 枣庄第一次自然灾害综合风险普查工作全面完成

  • (枣庄日报全媒体 记者 王龙飞)22日,记者从枣庄市第一次自然灾害综合风险普查工作新闻发布会上获悉,全市各行业部门已全面完成第一次自然灾害综合风险普查工作。为抓好自然灾害
  • 市文旅局召开推进法治政府建设示范创建工作会议

  • 4月19日,鄂尔多斯市文旅局召开党组会议,传达学习法治政府建设示范创建文件精神并部署推进有关工作。党组书记、局长李芸强调,要以创建促提升,以示范带发展,抓住创建工作契机,带动
  • 普陀区首批版权工作服务点正式揭牌

  • 在第23个世界知识产权日来临之际,4月21日下午,普陀区在曹杨百禧公园举办版权工作服务点授牌仪式暨2023年“知识产权宣传周”版权宣传主题活动。普陀区委常委、宣传部部长刘东
  • 黄石新增14家知识产权保护工作站

  • 4月22日,记者从市场监督管理局获悉,我市新增14家知识产权保护工作站。截至目前,已累计建成省级知识产权保护工作站3家、市级知识产权保护工作站26家,实现县(市、区)全覆盖。据悉,市
  • 全区安全防范工作视频调度会议召开

  • 4月21日,自治区召开全区安全防范工作视频调度会议,要求各级各部门要切实增强做好安全生产、防汛抗旱、重点区域防火等工作的紧迫感、使命感和责任感,完善应急处置预案,提升应急
  • 左新文调研美水街道办重点工作开展情况

  • 4月20日,县委书记左新文调研美水街道办重点工作开展情况。县委常委、组织部长谢世雄,副县长谢磊及县委办、乡村振兴局等部门负责人一同调研。左新文一行先后到美水街道南关社

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 有地位,话才有人听

  • 在上文中,老何说明了嫖宿幼女罪在实践中的客观效果。想必,读者们都会费解,为何这一规定能在一片诟病声中依然坚挺。今天,老何便为读者们分享一下自己的看法。正如老何老生常谈的
  • WWW 2023|快手:通过强化学习提升用户留存

  • 机器之心专栏机器之心编辑部短视频推荐系统的核心目标是通过提升用户留存,牵引 DAU 增长。因此留存是各APP的核心业务优化指标之一。然而留存是用户和系统多次交互后的长期反
  • AKShare-股票数据-分红配送详情

  • 作者寄语本次更新股票数据-港股分红配送详情接口。本接口可以获取:公告日期,方案,除净日,派息日,过户日期起止日-起始,过户日期起止日-截止,类型,进度,以股代息 等指标的数据。相关视
  • 周边房价体系乱作“一锅粥”,澄虹府该怎么摇?

  • ◎Tips:今日共3盘正在登记,明细见文末奥体世纪城的魅力,果然一如既往。上周末,澄虹府展示中心开放人气爆棚,不仅沙盘围满客户,连样板房都快挤爆了。申花、滨江之后,仿佛全城焦点都