酷应用

论文Express | 淘宝广告是怎么优化的？阿里团队实时竞价系统策略

百家作者：大数据文摘 2018-03-08 07:46:49

大数据文摘作品

作者：小鱼

经常逛淘宝的同学应该会发现，淘宝移动客户端首页下拉有一个“猜你喜欢”的板块，经常会推荐一些你曾经在淘宝搜索过的相关物品，偶尔确实给大家带来小惊喜，那么淘宝是怎么做到的呢？

最近，阿里团队在arXiv.org上发表了两篇关于实时竞价（RTB）系统中的算法的论文，称不仅能帮助商家在广告竞价中给出合理的策略，还能最大化商家的利润。

在大数据文摘公众号后台对话框内回复“竞价”即可下载两篇论文~

以下是第一篇论文部分内容：

基于多智能体强化学习的实时竞价案例

实时广告为广告商提供了一个为每个展位的访客竞价的平台。为了优化特定目标，如最大化广告投放带来的收入，广告商不仅需要估计广告和用户兴趣之间的相关性，最重要的是需要对其他广告商在市场竞价方面做出战略回应。本文提出了一个实用的分布协同多智能体竞价系统（DCMAB），并用于平衡广告商之间交易的竞争和合作关系。并利用阿里行业的实际数据已经证明了该建模方法的有效性。

竞价优化是实时竞价最关心的问题之一，其目的是帮助广告商为每次拍卖的展示给出合理的出价，最大化竞价系统的关键绩效指标（KPI），如点击量或利润。传统的竞价算法缺陷在于将竞价优化作为一个静态问题，从而无法实现合理的实时竞价问题。

多智能体强化学习的关键在于如何设计使每个智能体良好合作的机制和学习算法。淘宝有数量庞大的广告商，多智能体强化学习正好可以用来解燃眉之需。

淘宝的展示广告系统

在淘宝广告系统中，大多广告商不仅投放广告，也在淘宝电子商务平台上销售他们的产品。淘宝广告系统可以分为三部分如下图所示：第一步是进行匹配。通过挖掘用户的行为数据获得用户的偏好预测，当接受到用户请求时，根据实际情况，从整个广告语料库中实时匹配部分候选广告（通常按照顺序）。其次，实时预测系统（RTP）预测每个推荐广告的点击率（pCTR）和转化率（pCVR）。最后，对候选广告进行实时竞价和排名显示。

淘宝广告系统概述

匹配、实时预测和排名依次处理用户的请求，然后返回特定数量的广告。这些广告展示在淘宝客户端的“猜你喜欢”板块中。

多智能体广告竞价算法原理

将实时竞价看作一个随机游戏，也叫做Markov对策。Markov 对策是将多步对策看作一个随机过程，并将传统的Markov 决策过程( MDP)扩展到多个参与者的分布式决策过程（参考文献：李晓萌, 杨煜普, 许晓鸣. 基于 MarkoV对策和强化学习的多智能体协作研究[J]. 上海交通大学学报, 2001, 35(2):288-292.）。