帮人做晚饭、跑腿和叠衣服，AI可以帮助机器人做到这些吗？ |《自然》长文_

来源：环球科学

原文作者：Elizabeth Gibney

本篇《自然》长文共4187字，干货满满，预计阅读时间13分钟，时间不够建议可以先“浮窗”或者收藏哦。

人工智能与机器人技术交汇融合，相互助力实现飞速发展。

美国Figure公司开发的人形机器人使用了OpenAI的语言视觉模型。图片来源：AP Photo/Jae C. Hong/Alamy

对于看着《星球大战》长大的这一代科学家来说，屋里屋外仍见不到如C-3PO般智能的机器人，实在令人失望。那些能够在工作生活中为我们提供帮助的人形机器人，到底何时才能出现呢？

人工智能技术的快速发展或能填补这一空白。美国斯坦福大学机器学习和机器人研究人员Alexander Khazatsky说：“如果下一代人就能目睹那些科幻场景变为现实，我也丝毫不会感到惊讶。”

从OpenAI到谷歌DeepMind，几乎所有人工智能领域的科技巨头，都在致力于将支持聊天机器人的多功能学习算法（即基础模型）引入机器人领域，从而使机器人具备常识，有能力处理各种任务。许多研究人员认为，未来机器人功能将更强大，反应将更迅速。美国科技公司英伟达的机器人营销经理Gerard Andrews说：“我们相信机器人行业将迎来巨大变革。”今年三月，英伟达公司发布了用于人形机器人的通用人工智能模型。

与此同时，机器人还能促进人工智能的发展。许多研究人员希望，在人工智能训练中，通过引入环境互动实现“人工通用智能”，即人工智能在处理各项任务时展现出类似人类的认知能力。美国Meta公司的人工智能研究员Akshara Rai说：“具身智能是通向真正智能的最后一步。”

不过，尽管许多研究人员对将人工智能引入机器人行业感到兴奋，但他们也提醒说，一些看着很厉害的演示也仅仅只是演示而已，往往是希望引发热议的公司所为。美国麻省理工学院的机器人专家Rodney Brooks认为，从演示到实际应用，任重而道远。其公司iRobot研发了Roomba扫地机器人。

人工智能与机器人融合之路阻碍重重，例如，需要收集大量合适的数据供机器人学习，解决硬件稳定性以及安全性等问题。新加坡国立大学人机互动专家Harold Soh认为，“应该探索”用于机器人的基础模型。然而，这能否像一些研究人员所愿触发机器人行业的革命，他对此持保留态度。

坚实的基础

机器人这个词的内涵包括了各种自动化设备，从广泛用于制造业的机械臂，到自动驾驶汽车和用于战争和救援任务的无人机。多数机器人都不同程度地应用了人工智能技术，例如物体识别。美国机器人公司创新中心MassRobotics的联合创始人Joyce Sidopoulos指出，这些机器人一般用于执行特定任务，在特定环境中工作，或在一定程度上还需要人工控制。美国机器人公司Boston Dynamics研发的机器人Atlas，曾在2018年展示了令人惊叹的跑酷技能。然而，即使是Atlas，也需要在全面探测周边环境后，基于内置模板库选择最佳行动方案。

大多数涉足机器人领域的人工智能专家，希望研发出行动更自主、适应性更强的机器人。Sidopoulos说，他们的工作可能始于工厂“取放”产品的机械臂，最终或能研发出为老年人提供陪伴和支持的人形机器人，“应用领域非常广泛。”

人形机器人在设计上很复杂，而且可能不适用于某些任务，但它有一个巨大优势，即完美融入人类构建的世界，像人一样与周围的环境互动。

然而，控制机器人非常困难，人形机器人尤甚。那些看似简单的任务，比如开个门，实际上却非常复杂，要求机器人了解门开合的不同机制，对把手施力大小，以及如何在这个过程中保持平衡。现实世界变化不仅多端，而且持续变化着。

目前流行的机器人控制方式，是使用驱动ChatGPT等聊天机器人和图像生成器的人工智能基础模型。这类模型基于类似大脑的神经网络，学习大量通用数据。它们将训练数据的不同元素相互关联，收到输出指令时，利用这些关联生成恰当的单词或图像，结果往往令人惊叹。

同样，机器人基础模型也通过互联网上的文本和图像进行训练，获取物体性质及环境等信息。它还能从机器人操作实例中学习。例如，观看视频中机器人根据指令反复尝试或人类远程操作机器人，辅以相应指令，可用于训练机器人基础模型。经过训练的机器人基础模型可以观察场景，并利用所学来预测什么操作能带来最佳结果。

谷歌DeepMind公司研发的的机器人基础模型Robotic Transformer 2 (RT-2) 处于业内领先水平，可用于操作其姊妹公司Everyday Robots打造的移动机械臂。同其它机器人基础模型一样，它也是用互联网和机器人操作视频进行训练的。得益于线上训练，即使指令超出视频学习范围，RT-2也可以完成指令[1]。例如，它可以按照指令将饮料罐放到泰勒·斯威夫特的照片上，尽管RT-2观看的13万个操作示例中并没有出现过这位明星的图像。

换言之，机器人能将从互联网中获取的知识（比如歌手泰勒·斯威夫特的长相）应用于操作中。美国谷歌DeepMind公司的人工智能和机器人研究员 Keerthana Gopalakrishnan指出，“机器人能够迁移应用由互联网习得的概念”，这从根本上减少了机器人为应对不同情况而需要学习的数据量。

然而，要完全理解动作的基本原理及其影响，机器人仍需学习大量操作实例。问题就在这里。

数据匮乏

聊天机器人可通过互联网中浩如烟海的词汇进行训练，但我们无法找到同等量级的机器人行为的数据。Khazatsky说，数据的缺乏让机器人技术止步不前。

一个办法是收集数据。Khazatsky和同事创建了开源数据集DROID[2]，收录全球18个实验室远程操作德国Franka Robotics公司制造的Franka Panda 7DoF机械臂的视频，时常约350小时。这些视频以机器人视角录制，操作环境包括浴室、洗衣房、卧室和厨房等。Khazatsky说，场景的多样性有助于机器人出色完成未曾接触过的任务。

接到指令“找出灭绝的动物”后，谷歌 RT-2机器人从桌上一堆物品中选择了恐龙玩具。图片来源：谷歌DeepMind

Gopalakrishnan参与了十余个实验室的联合项目，致力于收集从单机械臂到四机械臂等多种形态的机器人数据。他们认为，学习一类机器人与现实世界交互的经验，有助于人工智能操控其它类型的机器人，就像学习英语可以帮助语言模型生成中文，因为不同语言所描述世界的基本概念是相同的。这似乎是可行的。该项目研发的基础模型RT-X已于2023年10月发布[3]，与基于单一机器人架构训练的模型相比，它在实际任务中表现更出色。

许多研究人员表示，这种多样性至关重要。人工智能专家、美国人工智能公司Covariant联合创始人陈曦（Peter Chen）说：“我们认为，真正的机器人基础模型不应该只囿于一种机器人形态。”

Covariant也在努力扩大机器人数据库规模。该公司由前OpenAI研究人员参与创建，他们自2018 年开始收集30种机械臂的数据。这些机械臂来自全球各地的仓库，均使用Covariant的软件。Covariant的Robotics Foundation Model 1（RFM-1）采集的数据不仅有视频，还包括货物重量、施力大小等传感器读数。Gopalakrishnan解释，理论上，这类数据有助于机器人处理柔软的物体，例如使它学会避免挤压香蕉。

Covariant建立了一个专有数据库，数据量达到数千亿token（现实世界的机器人信息单位）。陈曦介绍，这与OpenAI 2020年发布的大语言模型GPT-3的训练数据规模相当。他说：“我们拥有的这类数据最多，这是我们一直以来关注的重点。”陈曦表示， RFM-1即将发布，届时搭载Covariant软件的机器人的操作员，就可以用文字或语音发布一般性指令，例如“从储藏箱中取出苹果”。

另一种获取大量动作类视频的方法针对于人形机器人，让人工智能通过观看真人视频来学习——网络上能找到数以十亿计的真人视频。Andrews举例说，英伟达公司的GR00T基础模型正在学习人类执行各种任务的视频。Gopalakrishnan说，尽管模仿人类有望提高机器人技能，但这并非易事。她解释道，机器人视频一般都附有背景介绍和对应指令等信息，而真人视频则没有。

虚拟现实

研究人员说，获取交互数据的最后一个可行方法是模拟。许多机器人专家正在研究建立三维虚拟现实环境，其物理机制与真实世界类似，然后将其连接到机器人大脑进行训练。模拟器可以产生大量数据，让人类和机器人在罕见或危险的虚拟场景中互动，这样既没有风险，也不会造成机械损伤。英伟达公司的Andrews说：“如果你有大量机械臂，想通过实操练习让它们变得灵活，那电机恐怕要过热报废了。”

然而，打造性能优良的模拟器也不容易。Khazatsky说：“模拟器物理特性优良，但还达不到完美的程度，要模拟多样化的场景，难度几乎与收集多样化的数据相当。”

Meta和英伟达公司都押注通过模拟增加机器人数据。他们分别建立了复杂的模拟世界Habitat和Isaac Sim。在这些模拟世界中，机器人在数小时内就能获得在真实世界数年才能积累的经验，然后在试验中成功利用所学应对现实世界中从未遇到过的情况。Rai说：“模拟是推动机器人技术发展的强大工具，但却未得到足够的重视，我很高兴看到它的发展势头越来越好。”

许多研究人员认为，基础模型能够制造出可替代人工的通用机器人。今年二月，美国机器人公司 Figure获得6.75亿美元投资，用于研发搭载OpenAI语言视觉模型的通用人形机器人。在一段展示视频中，机器人得到“给我一些食物”的模糊请求后，给人拿来了一个苹果。这段视频在X（前身为 Twitter）上的点击量已达480万次。

这个机器人的基础模型是如何训练的，它在不同环境中具体表现如何，目前尚不清楚（OpenAI 和Figure都未回应《自然》的采访请求）。 Soh认为应谨慎对待这种展示。他说，视频中的环境非常空旷。提高环境的复杂度可能会让机器人感到困扰，就像自动驾驶汽车难以应对复杂路况。Soh说：“作为机器人的研究者，我们有理由对这类视频持保留态度。作为制作者，我们知道100次拍摄通常只能成功一次。”

前路的挑战

人工智能专家在机器人大脑研发领域突破不断，但机器人行业有人指出硬件也是一个挑战：机器人设计复杂，而且经常损坏。陈曦说，硬件虽在升级，但“很多人只看到基础模型的发展前景，却不知道打造这类机器人有多困难。”

另一个问题是，使用视觉数据完成大多数交互训练的机器人基础模型，到底可以走多远。Soh指出，机器人可能需要大量其他类型的感觉数据，例如触觉或本体感觉（身体在空间中的位置感）。目前还没有这样的数据集。他说：“我认为，这些缺失的数据，对人形机器人在真实环境中高效工作是必需的。”

将基础模型应用于真实世界还面临着另一个重大挑战——安全性。近两年，大语言模型大量涌现，人们发现它们会提供错误和有偏见的信息。它们还可能受到诱导做程序禁止的事情，比如告诉用户如何制作炸弹。赋予人工智能一个躯体，就会把这类错误引入真实世界，产生威胁。Gopalakrishnan说：“如果机器人出错，会伤到人、弄坏东西，或造成损害。”

Gopalakrishnan介绍，机器人行业将借鉴人工智能安全领域的宝贵经验。此外，她的团队还为一些机器人人工智能模型设置了等级高于学习的规则，例如不要尝试与人、动物或其它生物体互动的任务。她说：“在我们对机器人有信心之前，需要大量的人类监管。”

尽管存在风险，但人工智能和机器人技术的融合和促进方兴未艾。Gopalakrishnan认为，将人工智能大脑与实体机器人关联，可以改善基础模型，例如让它们具备更好的空间推理能力。Rai说，一些研究人员认为“真正的智能只能产生于与真实世界的互动之中”，Meta正是践行者之一。有人说，现实世界中的互动，能让人工智能不再囿于学习模式和预测，真正理解这个世界并进行推理。

未来如何，尚无定论。Brooks认为，机器人会不断改进并应用于新的领域，但这些应用终究不如人形机器人替代人类劳动来得吸引人。然而，也有人认为，研发出实用安全的人形机器人，帮人做晚饭、跑腿和叠衣服是可能的，只不过可能要花费数亿美元。Khazatsky说：“我相信有人能成功的。就是要花上大量的金钱，还有时间。”

参考文献：

1. Brohan, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2307.15818 (2023).

2. Khazatsky, A. et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2403.12945 (2024).

3. Open X-Embodiment Collaboration et al. Preprint at arXiv https://doi.org/10.48550/arXiv.2310.08864 (2023).

原文以The AI revolution is coming to robots: how will it change them?标题发表在2024年5月28日《自然》的新闻特写版块上

Doi：10.1038/d41586-024-01442-5