当机器人碰到没有训练过的指示指令,同样可以执行新任务吗?

当机器人碰到没有训练过的指示指令,同样可以执行新任务吗?
2022年11月16日 13:51 科技新领域

人们可以灵活地在物理环境中操纵物体以实现各种目标。机器人技术的一大挑战是成功地训练机器人做同样的事情,即开发一种能够根据任意用户命令执行多种任务的通用机器人。面对现实世界的机器人也不可避免地会遇到新的用户指令和训练过程中没有看到的情况。因此,必须训练机器人在各种情况下执行多项任务,更重要的是,能够根据人类用户的要求解决新任务,即使机器人没有明确接受这些任务的培训。

现有的机器人研究在允许机器人泛化到新的对象、任务 描述和目标方面取得了长足的进步。. 然而,让机器人完成描述全新任务的指令在很大程度上仍然遥不可及。这个问题非常困难,因为它需要机器人既能破译新指令,又能识别如何在没有任何训练数据的情况下完成任务。当机器人需要同时处理其他泛化轴时,这个目标变得更加困难,例如场景的可变性和物体的位置。因此,Google提出了一个问题:Google如何才能将值得注意的泛化能力赋予能够从原始像素执行复杂操作任务的真实机器人?此外,语言模型的泛化能力能否帮助支持其他领域更好的泛化,例如真实机器人的 视觉运动控制?

在CoRL 2021上发表的 “ BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning ”中,Google提出了一项新研究,研究机器人如何泛化到他们未经训练的新任务。该系统称为 BC-Z,包括两个关键组件:

( i ) 涵盖 100 个不同任务的大规模演示数据集的集合

( ii ) 以任务的语言或视频指令为条件的神经网络策略。

由此产生的系统可以执行至少 24 项新任务,包括需要与以前未一起看到的对象进行交互的任务。Google也很高兴发布 用于训练Google的策略的机器人演示数据集,以及预先计算的任务嵌入。

BC-Z 系统允许机器人完成未明确训练机器人执行的新任务的指令。它通过训练策略以将任务描述与机器人的相机图像一起作为输入并预测正确的动作来做到这一点。

收集 100 个任务的数据 完全泛化到一个新任务比泛化到训练任务中的保留变化要困难得多。简而言之,Google希望机器人具有更多的泛化能力,这需要Google在大量不同的数据上训练它们。

Google通过使用虚拟现实耳机遥控机器人来 收集数据。该数据收集遵循类似于如何教自动驾驶汽车驾驶的方案。首先,人工操作员记录每个任务的完整演示。然后,一旦机器人学习了初始策略,就会在密切监督下部署该策略,如果机器人开始犯错误或卡住,操作员会进行干预并在允许机器人恢复之前进行更正。

这种示范和干预的结合已被证明可以通过减少复合错误来显着提高绩效。在Google的实验中,与仅使用人工演示相比,Google发现使用这种数据收集策略时性能提高了 2 倍。

为 100 个训练任务中的 12 个收集示例演示,从机器人的角度进行可视化并以 2 倍速度显示。

训练通用策略

对于所有 100 个任务,Google使用这些数据来训练神经网络策略,将相机图像映射到机器人抓手和手臂的位置和方向。至关重要的是,为了让这个策略有可能解决超过 100 个训练任务的新任务,Google还输入了任务的描述,可以是语言命令的形式(例如,“将葡萄放在红色碗中”)或视频做任务的人。

为了完成各种任务,BC-Z 系统将描述任务的语言命令或执行任务的人的视频作为输入,如此处所示。

通过在 100 个任务上训练策略并根据这样的描述调整策略,Google解锁了神经网络能够解释和完成新任务指令的可能性。然而,这是一个挑战,因为神经网络需要正确解释指令,在视觉上识别该指令的相关对象,同时忽略场景中的其他杂波,并将解释的指令和感知转化为机器人的动作空间。

实验结果

在语言模型中,众所周知,句子嵌入泛化了训练数据中遇到的概念组合。例如,如果您在“拿起杯子”和“推碗”等句子上训练翻译模型,该模型也应该正确翻译“推杯子”。

Google研究了语言编码器中的组合泛化能力是否可以转移到真实机器人上的问题,即能够组合看不见的对象-对象和任务-对象对。

Google通过预先选择一组 28 个任务来测试这种方法,其中没有一个在 100 个训练任务中。例如,这些新的测试任务之一是拿起葡萄并将它们放入陶瓷碗中,但训练任务涉及用葡萄做其他事情并将其他物品放入陶瓷碗中。训练期间,葡萄和陶瓷碗从未出现在同一个场景中。

从数量上看,Google看到机器人可以在一定程度上成功完成 28 个保留任务中的 24 个,这表明其具有良好的泛化能力。此外,Google发现训练任务的表现和测试任务的表现之间存在明显的小差距。这些结果表明,简单地改进多任务视觉运动控制可以显着提高性能。

保持任务的 BC-Z 性能,即机器人未经过训练执行的任务。系统正确解释语言命令并将其转化为行动以完成Google评估中的许多任务。

这项研究的结果表明,简单的模仿学习方法可以以一种能够零样本泛化到新任务的方式进行扩展。也就是说,它显示了机器人能够成功执行训练数据中没有的行为的第一个迹象。有趣的是,在无基础的语言语料库上预训练的语言嵌入可用于出色的任务调节器。Google证明了自然语言模型不仅可以为机器人提供灵活的输入界面,而且预训练的语言表示实际上赋予下游策略新的泛化能力,例如将看不见的对象对组合在一起。

在构建该系统的过程中,Google确认定期人工干预是实现良好性能的一种简单但重要的技术。虽然未来还有大量工作要做,但Google相信 BC-Z 的零样本泛化能力是提高机器人学习系统的通用性和允许人们指挥机器人的重要进步。Google在本文中发布了用于训练策略的遥控演示,Google希望这将为研究人员提供宝贵的资源,用于未来的多任务机器人学习研究。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部