PlaNet简介:强化学习的深度计划网络

PlaNet简介:强化学习的深度计划网络
2022年11月16日 16:13 科技说论战

研究如何通过增强学习(RL)快速发展人工代理如何随着时间的推移改善其决策。对于这种技术,代理人在选择动作(例如运动命令)时观察一系列的感官输入(例如摄像机图像),有时会收到实现特定目标的奖励。RL的无模型方法旨在直接根据感官观察预测良好的动作,从而使DeepMind的DQN可以玩Atari和其他代理来控制机器人 。但是,这种黑匣子方法通常需要数周的模拟交互才能通过反复试验来学习,从而限制了其在实践中的实用性。相反,

基于模型的RL试图让代理了解世界的总体行为。与其直接将观察结果映射到行动,不如使代理人明确地提前计划,通过“想象”其长期结果来更仔细地选择行动。基于模型的方法已经取得了巨大的成功,其中包括AlphaGo,它设想利用已知的游戏规则在虚拟板上进行一系列移动。但是,要在未知的情况下利用计划在环境中(例如仅以像素为输入来控制机器人),代理必须从经验中学习规则或动态。由于这种动力学模型原则上可以实现更高的效率和自然的多任务学习,因此创建足够准确以成功进行计划的模型是RL的长期目标。

为了推动这一研究挑战的进展,并与DeepMind合作,我们提出了Deep Planning Network(PlaNet)代理,该代理仅从图像输入中学习世界模型,并成功地将其用于规划。PlaNet解决了各种基于图像的控制任务,在最终性能方面与先进的无模型代理竞争,同时平均数据效率提高了5000%。我们还将发布源代码,以供研究社区使用。

与计划图像的先前方法相比,我们依靠隐藏或潜在状态的紧凑序列。这被称为潜在动力学模型:我们直接预测潜在状态,而不是直接从一个图像到下一个图像进行预测。然后从相应的潜在状态生成每个步骤的图像和奖励。通过以这种方式压缩图像,代理可以自动学习更多抽象的表示形式,例如对象的位置和速度,从而更容易向前预测而不必沿途生成图像。

学习的潜在动力学模型:在潜在动力学模型中,使用编码器网络(灰色梯形)将输入图像的信息集成到隐藏状态(绿色)中。然后,将隐藏状态及时向前投影,以预测将来的图像(蓝色梯形)和奖励(蓝色矩形)。

为了学习准确的潜在动力学模型,我们引入:循环状态空间模型:

具有确定性和随机性的潜在动力学模型,可以根据健壮的计划预测各种可能的未来,同时在许多时间步骤中记住信息。我们的实验表明,这两个组件对于实现高计划性能都是至关重要的。

潜在超调目标:通过在潜在空间中加强单步和多步预测之间的一致性,我们概括了潜在动力学模型的标准训练目标,以训练多步预测。这产生了快速有效的目标,可改善长期预测并与任何潜在序列模型兼容。

尽管预测未来的图像可以让我们讲授模型,但是对图像进行编码和解码(上图中的梯形)需要大量计算,这会减慢计划的速度。但是, 在紧凑的潜在状态空间中进行规划很快,因为我们只需要预测未来的回报,而不是图像就可以评估动作序列。例如,座席可以想象对于某些动作,球的位置及其到球门的距离将如何变化,而无需可视化场景。这样,每次代理选择一个动作时,我们就可以比较大批量的10,000个想象的动作序列。然后,我们执行找到的最佳顺序的第一个动作,并在下一步进行重新计划。

潜在空间中的规划:为了进行规划,我们将过去的图像(灰色梯形)编码为当前的隐藏状态(绿色)。从那里,我们可以有效地预测多个动作序列的未来回报。请注意,上图中昂贵的图像解码器(蓝色梯形)是如何消失的。然后,我们执行找到的最佳序列的第一个动作(红色框)。

与我们之前关于世界模型的工作相比,PlaNet在没有策略网络的情况下工作-它纯粹是通过计划选择行动,因此可以从模型改进中受益。有关技术细节,请查看我们的在线研究论文或PDF版本。

PlaNet与无模型方法

我们在连续控制任务上评估PlaNet。仅向代理提供图像观察和奖励。我们考虑提出各种不同挑战的任务:

带有固定摄像头的摆杆摆转任务,因此手推车可以移开视线。因此,代理必须吸收并记住多个帧上的信息。

手指旋转任务,需要预测两个单独的对象以及它们之间的交互。

一种猎豹奔跑任务,其中包括难以精确预测的与地面的接触,因此需要一种可以预测多种可能未来的模型。

杯赛任务,仅在接住球后才提供稀疏的奖励信号。这就需要对未来进行准确的预测,以计划精确的动作序列。

步行者任务,其中模拟机器人躺在地上开始,必须首先学会站起来然后走路。

PlaNet代理接受了各种基于图像的控制任务的培训。动画显示了代理正在解决任务时的输入图像。这些任务带来了不同的挑战:局部可观察性,与地面的接触,接球的稀疏奖励以及控制具有挑战性的两足机器人。

我们的工作构成了第一个例子,其中在基于图像的任务上,具有学习能力的模型进行的计划优于无模型的方法。下表将PlaNet与著名的A3C代理和D4PG代理进行了比较,它们结合了无模型RL的最新进展。这些基准的数字来自DeepMind Control Suite。PlaNet在所有任务上均明显优于A3C,并达到接近D4PG的最终性能,而与环境的交互平均减少了5000%。

一个代理完成所有任务

此外,我们训练一个PlaNet代理来解决所有六个任务。代理被随机放置在不同的环境中而不知道任务,因此它需要根据其图像观察来推断任务。在不更改超参数的情况下,多任务代理可以实现与单个代理相同的平均性能。尽管在棘手任务上学习速度较慢,但??在需要探索的具有挑战性的助行器任务上,它的学习速度明显更快,并且最终性能更高。

PlaNet代理的视频预测可以完成多项任务。上面显示了由受过训练的特工收集的坚持事件,而下图显示了开环特工幻觉。代理将前5帧作为上下文进行观察以推断任务和状态,并根据给定的一系列动作准确地预先预测50个步骤。

结论

我们的结果证明了建立自主RL代理的学习动力学模型的希望。我们主张进行进一步的研究,重点是在难度更高的任务(例如3D环境和现实世界中的机器人任务)中学习准确的动力学模型。扩大规模的可能因素是TPU的处理能力。我们对基于模型的强化学习所带来的可能性感到兴奋,其中包括多任务学习,分层计划以及使用不确定性估计进行主动探索。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部