阿里妈妈首提AIGB并实现大规模商业化落地，将正式开源Benchmark_

机器之心发布

机器之心编辑部

2023 年，阿里妈妈首次提出了 AIGB（AI-Generated Bidding）Bidding 模型训练新范式（参阅：阿里妈妈生成式出价模型（AIGB）详解）。AIGB 是一种全新的迭代范式，把自动出价问题建模为生成式序列决策问题，这是生成式 AI 在该领域的首次应用。经过一年的探索和研发，我们在阿里妈妈广告平台成功部署 AIGB 并取得显著效果，我们还把过程中的发现和经验总结成论文发表在 KDD 2024，详细分享了这一全新的迭代范式。

为了激发该领域进一步的技术创新，我们今年发起了大规模拍卖中的自动出价比赛，并特别设置了 AIGB 赛道，这一理念得到了 NeurIPS 的认同，阿里妈妈成为国内工业界今年唯一一家获得 NeurIPS 比赛主办权的组织。同时，我们也将在 NeurIPS 2024 上正式开源 AIGB 的 Benchmark：业界首个标准化的大规模模拟竞价系统和大规模博弈数据集。

论文名称：AIGB: Generative Auto-bidding via Diffusion Modeling
论文作者：Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng
发表会议：KDD 2024
论文链接：https://arxiv.org/abs/2405.16141

背景：在线广告场景中的自动出价

广告业务是互联网公司营收的一项重要来源。仅在 2023 年，在线广告市场的规模就达到了 6268 亿美元。在线广告往往是通过流量拍卖的方式进行广告投放。广告主需要设定合理的出价从而竞得流量。近年来，自动出价（Auto-Bidding）技术已成为推动广告市场持续增长的关键因素。相比于传统的手动出价，自动出价充分考虑了线上流量分布、竞价环境、预算以及各种限制因素，在为广告主带来了更多价值的同时，促进了平台业务的增长。一种典型的自动出价目标是在给定预算及其他约束的条件下最大化广告主的流量价值。典型的自动出价任务包括给定预算下的最大化拿量任务 Max-Return，以及给定预算和 ROI 约束的最大化拿量任务 Target Roas 等。

在实践中，自动出价的优化问题一般会被看作一个序列决策问题，出价模型在整个投放周期（通常为 1 天）内随着流量和竞价情况的变化动态调整出价参数从而优化整体效果。模型需要具备一定的全局视角，进行整体规划和决策。对于序列决策问题，一种被业界广泛采用的解决方案是强化学习（RL）。RL 方法可以通过不断和环境交互寻优，从而不断提升策略效果。RL 也是目前一种主流的 Bidding 解决方法。但是这种方法由于存在一定的内生性缺陷（价值函数预估和自举法导致的训练不稳定），不擅长处理 Bidding 面临的长序列决策问题，容易出现训练效果差的问题。因此，我们期待通过算法范式的升级来提升 Biding 模型的线上效果。

生成式模型助力 Bidding 范式升级

生成式模型近年来得到了迅速的发展，在图像生成、文本生成、计算机视觉等领域取得了重大突破。目前最新的生成式模型在分布拟合以及相关性关联等方面显著地优于浅层神经网络。工业界 Bidding 策略优化的核心是基于历史的 Bidding 数据，通过模型挖掘策略与效果之间的相关性从对策略进行优化，是生成式模型落地的一个较为理想环境。基于这一洞察，我们提出了 AIGB（AI-Generated Bidding）解决方案。AIGB 是一种基于生成式模型（Transformer、Diffusion Model 等）的出价问题解决方案框架。与以往解决序列决策问题的 RL 思路不同，AIGB 将 Auto-Bidding 视为一个策略生成问题，通过生成模型强大的特征关联以及分布拟合能力，直接捕捉历史 Bidding 数据集中优化目标和出价策略之间的相关性从而优化策略。相比于 RL 方法，这种新的建模范式避免了价值函数预估和自举法所所造成的误差，尤其擅长处理 Bidding 所面对的长序列稀疏回报的问题。

图 1：图左历史投放轨迹中，颜色深浅代表计划 return 的不同。右图为 AIGB 模型根据不同需求生成的新策略。整个模型看作一个分布处理 pipeline，输入历史非最优但存在有效信息的广告投放轨迹，输出符合优化目标的新策略。

图 1 直观地展示了生成式出价（AIGB）模型的流程。我们将出价、优化目标和约束等具备相关性的指标视为一个有一定规律的数据分布。在训练阶段，我们可以利用生成模型对这一数据分布进行数据挖掘寻优，这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段，生成式模型可以基于约束和优化目标，以符合分布规律的方式输出出价策略。

理论上，AIGB 范式可以兼容多种生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型侧重点不同，例如，Transformer 模型主要基于自注意力机制，能够对样本中跨时序和分层信息进行提取和关联，擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中，然后学习逆向扩散过程以从噪声中构造所需的数据样本。加噪和去噪的过程可以类比为是把特征用马赛克遮住然后再还原的过程。相比之下，可以从细节到整体捕捉多个层次的相关性，从而提取出更多的有效信息，更擅长进行分布建模。因此，基于不同的生成模型特点，可以构建出不同的建模方案。

DiffBid：基于扩散模型（Diffusion Model）的 AIGB

在 AIGB 框架下，我们引入了基于扩散模型方案 DiffBid。DiffBid 由规划模块和控制模块组成。对于规划模块，我们首先将一个完整投放周期内广告主剩余预算、消耗速率、ROI、流量价值等出价相关状态信息随着时间不断变化的过程看作一条 Bidding 轨迹，然后利用扩散模型对历史数据集中的海量 Bidding 轨迹序列进行建模（图 2），以最大似然估计的方式拟合轨迹数据中的分布特征。因此，DiffBid 可以基于给定目标规划出对应的出价轨迹。在此基础上，DiffBid 会再利用一个逆动力学控制模型根据环境的变化尽可能逼近规划轨迹。

图 2：左为正向过程，右为反向过程。DiffBid 正向与反向过程示例，对于一条由剩余预算序列轨迹，正向过程不断加入噪声，破坏其有效信息，然后反向过程生成新的轨迹，最大限度将这部分丢失的信息还原。

在近一年多的实践中，我们通过多轮线上实验，反复验证了 DiffBid 的效果。截止目前，DiffBid 已经多个场景的实验中相比于传统的 RL 方法产生了显著的正向效果。其中在某场景 Max-Return 任务中，产生了 GMV+3.6% 的结果。在 Target Roas 任务中，在保证整体 ROI 满足要求的情况下取得了 GMV+5.0% 的结果。特别在 Target Roas 中，由于 ROI 反馈稀疏且滞后，RL 方法训练难度较大，而 DiffBid 受影响较小。因此，DiffBid 既为广告主带来更多收益，又很好保障了广告主的 ROI。

与此同时，我们通过进一步分析，发现 DiffBid 模型在提效的同时，还能够对实际投放轨迹产生一定的平滑性优化（图 3），在 DiffBid 策略生效后，投放轨迹的异常状态显著减少，振荡性显著降低，与此同时减少过快消耗的现象。广告主的投放体验也因此得到改善。

图 3：真实线上剩余预算散点图。横轴为剩余时间，纵轴为剩余预算。越分散代表消耗越振荡，投放平滑性越差。此外在图 a 中，存在大量提前消耗完毕的投放轨迹。这部分轨迹可能会由于错过一部分晚上的高性价比流量导致效果下跌。而 DiffBid 可以明显减少这种问题

除了实际线上效果的优势外，相比于其他方法，DiffBid 还具有其他两方面的优势。首先，相比于通过端到端方法直接输出 Bidding 信息，DiffBid 生成的轨迹信息具有更好的可解释性（图 4）。有助于我们对模型效果进行更好的评估，从而助力优化工作。例如，我们观察模型规划出的轨迹和实际线上的轨迹，如果出现规划出的最终剩余预算不为 0 的情况说明模型并未能有效利用所有预算。如果规划轨迹与实际轨迹差距较大，则说明逆动力学控制模型自适应能力较差。在定位问题之后，可以较为方便地进行针对性优化。其次，DiffBid 对多目标的兼容能力更强，与此同时支持在训练完成后对目标进行调整从而优化规划轨迹。基于这一特点，我们可以更为方便地加入一些将业务逻辑指标作为优化目标，与 Bidding 模型更好地结合起来。例如，在 Max-Return 任务优化的过程中，可以将预算使用率合并进入目标中，同时保证 GMV 和预算使用率得到优化。

图 4：横坐标轴表示时间，纵坐标表示剩余预算和但时间步消耗。灰色曲线 / 柱子为最优轨迹剩余预算曲线 / 消耗。红色表示不同优化目标所对应的规划轨迹曲线。可以看出，随着目标 Return 变大，模型规划会逐步逼近最优轨迹。证明模型学到了合理的业务逻辑和优化措施

目前 DiffBid 在阿里妈妈广告场景中大规模商业化落地，助力双十一，为广告主赋能。此外，基于扩散模型的特点，DiffBid 下可延展性和多目标能力会显著强于传统模型，这种特点将会为未来的 Bidding 优化和产品建设带来帮助。

展望

除了已经展现出来的诸多优势之外，AIGB 框架的开放性也能够兼容诸多不同的方案设计。在阿里妈妈刚刚举办的 NeurIPS 2024：大规模拍卖中的自动出价比赛中，选手们基于不同的基础生成模型，提出了一批不同于 DiffBid 的 AIGB 解决方案，迸发出诸多亮点。其中有的选手充分利用了 Transformer 的优势，通过自回归的方式预测给定优化目标的出价信息。有的选手提出 Transformer 全局规划模型与 bidding 小模型结合的出价方案。也有基于 Diffusion 模型直接进行出价的方案。这些方案均在不同程度上展示出了优势，为未来 AIGB 的进一步迭代提供了启发。但是，我们相信这仅仅是一个开始。未来随着技术的进一步发展，更多的 AIGB 方案涌现出来，从而以完全不同的方式重构自动出价的技术体系。阿里妈妈沉淀了亿级广告投放轨迹数据，是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证，从而推动 AIGB 技术的发展。

期待后续有机会与大家分享和交流我们的进展与实践。

邀请函 | NeurIPS 2024 Competition Workshop：Auto-Bidding in Large-Scale Auctions

12 月 14 日，阿里妈妈将在 NeurIPS 2024 会议现场组 Workshop：大规模拍卖中的自动出价（Auto-Bidding in Large-Scale Auctions）。我们邀请了来自谷歌、亚马逊、普渡大学和阿里妈妈的学界和工业界嘉宾，以及本届赛事获奖团队代表，围绕决策智能领域的最前沿技术进行分享和交流。同时阿里妈妈也将正式开源世界首个标准化的大规模竞价系统和大规模博弈数据集。期待与大家现场交流～