DeepMind发布新一代人工智能游戏代理_

近年来，人工智能代理在一系列复杂的游戏环境中取得了成功。例如，AlphaZero在开始时只知道如何下棋的基本规则，就击败了国际象棋、将棋和围棋的世界冠军程序。通过强化学习(RL)，这个单一系统通过反复试验和错误的过程进行一轮又一轮的游戏来学习。但是 AlphaZero 仍然在每场比赛中单独训练——如果不从头开始重复强化学习过程，就无法简单地学习另一个游戏或任务。RL 的其他成功作品也是如此，例如Atari、Capture the Flag、StarCraft II、Dota 2和Hide-and-Seek. DeepMind 解决智能以推动科学和人类进步的使命使DeepMind探索如何克服这一限制以创建具有更通用和适应性行为的智能 AI 代理。这些智能体无需一次学习一个游戏，而是能够对全新的条件做出反应，并完成一整套游戏和任务，包括以前从未见过的游戏和任务。

今天，DeepMind发布了“开放式学习导致一般有能力的代理DeepMind发现代理表现出一般的启发式行为，例如实验，广泛适用于许多任务而不是专门用于单个任务的行为。这种新方法标志着朝着创建更通用的代理迈出了重要的一步，该代理具有在不断变化的环境中快速适应的灵活性。

开放式学习导致通用智能体

代理执行各种测试任务。该代理接受了各种游戏的训练，因此能够泛化到训练中从未见过的测试游戏。

缺乏训练数据——其中“数据”点是不同的任务——一直是限制 RL 训练的智能体的行为普遍适用于跨游戏的主要因素之一。由于无法在足够多的任务集上训练智能体，使用 RL 训练的智能体无法将他们学习到的行为适应新任务。但是通过设计模拟空间以允许程序生成的任务，DeepMind的团队创造了一种方法来训练以编程方式创建的任务并从中产生经验。这使DeepMind能够在 XLand 中包含数十亿个任务，跨越不同的游戏、世界和玩家。

DeepMind的 AI 代理位于多人游戏环境中的 3D 第一人称化身，旨在模拟物理世界。玩家通过观察 RGB 图像来感知周围环境，并收到他们目标的文字描述，然后他们会在一系列游戏中进行训练。这些游戏就像寻找物体和导航世界的合作游戏一样简单，玩家的目标可能是“靠近紫色立方体”。更复杂的游戏可以基于从多个奖励选项中进行选择，例如“靠近紫色立方体或将黄色球体放在红色地板上”，而更具竞争力的游戏包括与合作玩家对战，例如对称的捉迷藏每个玩家都有一个目标，“看到对手，让对手看不到我”。每个游戏都定义了对玩家的奖励，每个玩家的最终目标都是最大化奖励。

由于 XLand 可以通过编程方式指定，游戏空间允许以自动化和算法方式生成数据。并且由于 XLand 中的任务涉及多个玩家，共同玩家的行为极大地影响了 AI 代理面临的挑战。这些复杂的非线性交互创造了一个理想的训练数据源，因为有时环境组件的微小变化也会导致代理面临的挑战发生巨大变化。

XLand 由一系列游戏组成（此处视为嵌入 2D 中的点，根据其属性着色和调整大小），每个游戏都可以在许多不同的模拟世界中进行，这些世界的拓扑和特征平滑地变化。XLand 任务的实例将游戏与世界和合作玩家结合在一起。

训练方法

DeepMind研究的核心是深度强化学习在训练DeepMind代理的神经网络中的作用。DeepMind使用的神经网络架构提供了一种对智能体内部循环状态的注意力机制——通过对智能体正在玩的游戏特有的子目标的估计来帮助引导智能体的注意力。DeepMind发现这个目标注意代理 (GOAT) 可以学习更通用的策略。

DeepMind还探讨了一个问题，训练任务的什么分布会产生最好的代理，尤其是在如此广阔的环境中？DeepMind使用的动态任务生成允许代理训练任务的分布不断变化：生成的每个任务既不太难也不太容易，但正好适合训练。然后，DeepMind使用基于群体的训练(PBT) 来调整基于适应度的动态任务生成的参数，旨在提高代理的一般能力。最后，DeepMind将多个训练运行连接在一起，这样每一代代理都可以引导上一代代理。

这导致以深度强化学习为核心的最终训练过程，随着每一步的经验更新代理的神经网络：

经验步骤来自于响应代理行为而动态生成的训练任务，

代理的任务生成功能会随着代理的相对性能和鲁棒性而发生变化，

在最外层的循环中，几代代理相互引导，为多人游戏环境提供更丰富的合作玩家，并重新定义进程本身的衡量标准。

训练过程从头开始，迭代构建复杂性，不断改变学习问题以保持代理学习。组合学习系统的迭代性质不优化有界性能指标，而是优化迭代定义的通用能力范围，导致代理的潜在开放式学习过程，仅受环境空间和代理的表达能力的限制神经网络。

代理的学习过程由多个时间尺度的动态组成

衡量进度

为了衡量代理在这个广阔的宇宙中的表现，DeepMind使用与用于训练的数据保持分离的游戏和世界创建了一组评估任务。这些“保留”任务包括专门设计的任务，例如捉迷藏和夺旗。

由于 XLand 的大小，了解和表征DeepMind的代理的性能可能是一个挑战。每项任务都涉及不同程度的复杂性、可实现奖励的不同规模以及代理的不同能力，因此仅将奖励与保留的任务进行平均将隐藏复杂性和奖励的实际差异——并将有效地将所有任务视为同等有趣，这不一定适用于程序生成的环境。

为了克服这些限制，DeepMind采取了不同的方法。首先，DeepMind使用DeepMind当前训练的玩家集计算的纳什均衡值对每个任务的分数进行归一化。其次，DeepMind考虑了归一化分数的整个分布——而不是查看平均归一化分数，DeepMind查看归一化分数的不同百分位数——以及代理至少获得一个奖励步骤的任务的百分比：参与。这意味着只有当一个代理在所有百分位数上都超过了性能时，它才被认为比另一个代理更好。这种测量方法为DeepMind提供了一种评估代理性能和稳健性的有意义的方法。

在对DeepMind的智能体进行了五代训练后，DeepMind看到了在DeepMind保留的评估空间中学习和性能的持续改进。在 XLand 的 4,000 个独特世界中玩大约 700,000 个独特游戏，最后一代的每个智能体都经历了 2000 亿个训练步骤，这是 340 万个独特任务的结果。目前，DeepMind的智能体已经能够参与每个程序生成的评估任务，除了少数即使是人类也无法完成的评估任务。DeepMind看到的结果清楚地展示了整个任务空间中的一般零样本行为——标准化分数百分位数的前沿不断提高。

最后一代智能体的学习进度显示了DeepMind的测试指标如何随着时间的推移而进展，也转化为手工编写的保留测试任务的零样本性能。

定性地观察DeepMind的代理，DeepMind经常看到一般的、启发式的行为出现——而不是针对单个任务的高度优化的、特定的行为。与智能体确切地知道在新情况下“最好的事情”相比，DeepMind看到了智能体试验和改变世界状态直到他们达到有益状态的证据。DeepMind还看到代理依赖于其他工具的使用，包括遮挡可见性、创建坡道和检索其他对象的对象。由于环境是多人游戏，因此DeepMind可以在对持久的社交困境进行训练时检查代理行为的进展，例如在“吃鸡游戏”中”。随着训练的进行，DeepMind的代理在玩自己的副本时似乎表现出更多的合作行为。鉴于环境的性质，很难确定意向性——DeepMind经常看到的行为似乎是偶然的，但DeepMind仍然看到它们始终如一地发生。

上图：会出现哪些类型的行为？(1) 特工表现出随着战术形势的展开而切换他们选择的选项的能力。(2) 代理展示工具使用的一瞥，例如创建坡道。(3) 代理学习一种通用的试错实验行为，当他们认识到已经找到正确的状态时停止。下图：在这个手工编写的探测任务中，相同代理设法使用对象到达目标紫色金字塔的多种方式。

在这个手工编写的探测任务中，相同代理设法使用对象到达目标紫色金字塔的多种方式。

分析智能体的内部表征，DeepMind可以说，通过在广阔的任务空间中采用这种强化学习方法，DeepMind的智能体了解他们身体的基本知识和时间的流逝，并且他们了解游戏的高级结构他们遇到。也许更有趣的是，它们清楚地认识到环境的奖励状态。新任务中行为的这种普遍性和多样性暗示了在下游任务上微调这些代理的潜力。例如，DeepMind在技术论文中表明，只需对新提出的复杂任务进行 30 分钟的集中训练，代理就可以快速适应，而从头开始用 RL 训练的代理根本无法学习这些任务。