银河通用王鹤：用三维视觉小模型+基础大模型实现具身智能_

作者| 金旺

栏目| 机器人新纪元

随着通用人工智能的浪潮来袭，具身智能也随之成了一个热门研究方向。

尤其是在GTC 2024上，黄仁勋官宣人形机器人通用基础模型GR00T发布后，让AGI+人形机器人成了一个全球热门课题。

在近日上海举办的首届具身智能大会上，科技行者在现场聆听了国内众多专家、学者、科学家对于这一话题的激情研讨和观点碰撞。

有专家认为，通用人工智能是人类一个永恒的目标，但很可能永远都达不到；有专家认为，大家对大数据和大模型关注度太高了，现在的人形机器人应该更多关注机器人本体。

而关于具身智能，身为北京大学计算机学院前沿计算研究中心（CFCS）助理教授、博士生导师，同时又是银河通用机器人公司创始人的王鹤认为，谷歌RT-2和Figure给出的不是最优解，三维视觉小模型+基础大模型会是实现具身智能的一条路径。

为什么谷歌的RT-2和Figure给出的不是最优解？

三维视觉小模型+基础大模型又是一条怎样的具身智能路径呢？

关于这些问题，王鹤在具身智能大会具身多模态大模型论坛上给出了解释，科技行者就这一演讲关键内容进行了不改变原意的整理：

01 机器人从动嘴到动手有多难？

最近，具身多模态大模型非常火，我们看到了OpenAI和Figure的联合演示，我们也知道英伟达最近在GTC 2024上宣布了他们的Project GR00T计划。

这其中，一个重要问题是，通用机器人必须拥有一套通用的模型。

这样的模型有人叫它机器人基础大模型（Robotic Foundational Model），也有人叫它具身多模态大模型（Enbodied Multimodal Large Model）。

它的本质是什么？

本质是能够将语言、视觉和其它机器人本体（包括本体传感器）在内的融合信息当作输入信息，输出一定是动作，不只是动动嘴。

具身多模态大模型和非具身多模态大模型最大的区别是，能不能输出让机器人运动起来的动作指令。

这样的具身多模态大模型是我们今天要讨论的问题。

实际上，这样的工作并非如今才开始，谷歌是最早对这一问题进行探索的公司，他们这几年在RT系列上的工作备受全球关注。

例如，RT-1上就搭载了谷歌多模态大模型和多模态动作小模型，其中，大模型负责的是控制指令分解，例如打开抽屉、将物体从抽屉里拿出来等。

RT-2是一个更加端到端的系统，它的模型可以直接输出动作，而且是在一个完全开放环境中进行操作，可以做到“把香蕉放到第二个位置”、”把草莓放到正确的碗里“，什么是“正确的”碗里，在这里很重要。

这其实是把多模态大模型背后的理解、规划、动作模型输出的交互能力融为了一体。这样的模型是端到端的视觉-语言-动作模型，直接输出机器人末端六自由度的位姿。

这类模型的出现，是否就意味着今天已经有了具身多模态大模型或机器人基础模型了呢？

我个人的答案是，不是。

如果“是”的话，英伟达也就不用再发布Project GR00T计划了。

02 两大难题：泛化能力、响应速度

那么它的问题在哪里呢？

第一个问题是泛化性差。

谷歌RT系列的动作数据来自于1-3个厨房，谷歌在山景城办公室3个厨房中，一个16人的团队用13个机器人，花了17个月的时间，采集到了13万条数据。

这些数据虽然覆盖了移动、抓取、放下这些移动场景中很多任务，但是场景非常单一，只是在谷歌的厨房里。

所以我们发现，谷歌这一模型在他们的厨房里执行任务的成功率相当高，在RT-1的论文中的数据显示，在这个场景中，它执行任务的成功率高达97%。

但一旦出了这个厨房，到了一个不熟悉的环境中，RT-1执行任务的成功率就会大幅下降。

RT-2通过把互联网上的视频作为辅助训练数据，这在一定程度上提升了模型的泛化能力，但是由于进行数据采集的厨房里桌子的高度是固定的，一旦在真实世界里桌子的高度与训练数据中桌子的高度有较大差异，就无法再执行这样的动作。

也就是说，谷歌RT-2用的多模态模型无法输出与训练数据高度差异较大的桌子上动作的能力。

即便如此，收集这些数据，谷歌依然花了上千万美金。

第二个问题是慢。

谷歌RT-2这样的端到端大模型，用55B的模型，运动频率只能做到1-3Hz，实际视频中展示出的运动效果都经过了加速。

而Figure和OpenAI展示出的Demo是原倍数播放的，动作一气呵成，看起来非常舒服。

Figure背后的模型有多快呢？

据Figure给出的官方说法是，这个模型能达到200Hz的输出频率，也就是说，它执行动作的延时只有5ms，谷歌如果将模型压缩到5B，也只能达到50Hz，延时依然有200ms，比Figure慢了几十倍。

Figure的技术虽然快，虽然丝滑，但它背后也是基于一个单一任务场景进行了大量的数据采集，实际上也不具备泛化性。

真正又快、又有泛化性的技术可能是什么样的呢？

03 具身智能关键：三维视觉小模型

我认为一种有效的途径是使用三维视觉小模型。

三维视觉小模型的好处是，三维视觉具有几何的泛化性，它看到的物体几何即使颜色不一样，场景发生变化后，同一个物体的几何也拥有极大的相似性。

把各种物体放到足够多场景中进行仿真，甚至把传感器都放进去仿真，我们就有可能通过合成数据和Sim2Real训练出一个又快、泛化能力又强的三维小模型。

今天我分享的是我们的三层级具身多模态大模型系统：

在这个系统中，底层是硬件层。

中间层是具身智能的技能模型。它们通过三维视觉和仿真数据Sim2Real学习到一系列技能，包括可泛化的自动建图、可泛化的地图导航、物体抓取、关节类物体操作、移动抓取操作、叠衣服、挂衣服等技能，这些都是三维视觉小模型。

上层是任务规划模型。用GPT-4V、Emu2等多模态大模型做任务规划者，通过它们来调用中间层的小模型。

一个指令进来后，大模型负责安排调用哪个小模型，小模型执行完后，大模型看结果状况，再研究下一步应该如何做。

例如，如何做到开放指令中的“关”。

这需要覆盖很多任务，例如，怎么打开一个从未见过的家用电器的门、拉抽屉、提盖子、打开微波炉，用榨汁机等，我们可以把它通俗地归纳为泛化的家用电器操作。

这其中有一个共性是，这些物体都有很多零部件，我们操作这些家用电器时要按按钮、拉把手等。所以我们在2023年CVPR的论文GAPartNet提出了一个数据集，总结了家用电器9种常见的零部件，包括直线型把手、圆形把手、转钮、按钮、拉的盖子、转的盖子等。

我们将真实世界里80%-90%的家用电器、家具上要用手操作的零部件进行了合成，形成了一个合成数据集，基于这个数据集，我们可以做到跨场景、跨类别的泛化。

例如，一个机器人从未见过的柜子，我们可以分割出它的抽屉、把手，标注出把手的的位姿，这样就可以实现跨类别、跨物体的泛化位姿。

这个位姿是一个类别级位姿，可以告诉我们从哪个方向去接近它、沿哪个方向去拉。

这样的能力就能让机器人去执行开门、拉抽屉等动作。

这些都是基于三维视觉看到零部件的点云以后，进行的感知+位姿估计+动作组合，这样的模型还可以在没有见过的物体类别上得到零部件的位姿和操作方法。

有了这些能力后，大模型如何调用这些小模型的API让机器人工作，就是我们最近在做的工作。

例如，我们看到一个从来没见过的微波炉，我们发现，GPT-4V不是完全知道，但是它不清楚微波炉有哪些零部件。我们把基于三维视觉数据训练出的零部件分割和检测模型，先把这个三维点云里所有零部件的数据检测出来，然后作为prompt告诉GPT-4V，让GPT-4V生成关于这个场景的一个综合的描述。

这样的描述可以是：这是一个微波炉，上面有一个转的门，有一个直线型的手，有一个按钮。

这时，只要给GPT-4V几个API端口，它就可以跨物体类别去调用这些API。

对于我们微波炉这个例子来说，它就调用了抓取、绕轴转90°的API，这其中，抓取、绕轴转、90°都是它自己填写的。

我们的三维视觉小模型负责告诉它抓的位置、转轴的位置，生成圆周的轨迹，这样就形成了机器人的动作。

在这个操作过程中，我们发现会遇到门强拉不开的问题。

由于知道这个门的位姿，将相应的位姿反馈给机器人，告诉它门实际上只转了零点几度后，它会根据上一次描述中的按钮，执行按按钮操作。

这样，GPT4V作为一个大脑，不断反馈下一步应该怎么做、重新规划方案，就可以将门打开了。

这就体现了大模型和三维视觉小模型互动，共同完成机器人操作任务。

那么什么是未来的多模态具身大模型或机器人基础模型？

我们今天给大家的一个思路是，类似于Figure的GPT-4V大模型在顶层，中间层是一些响应很快的小模型，我们用的是三维视觉小模型，最后形成了可泛化的任务执行能力。

那么，什么是终极具身智能呢？

什么时候我们能做到类脑模型，把所有的模态数据全放到数据集中，还能拥有足够快的响应速度，还能听得懂语义，就能做到真正的具身智能。

这也是我们接下来要研究的问题。

头条号入驻

科技行者一个只谈智能的信息服务平台。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

银河通用王鹤：用三维视觉小模型+基础大模型实现具身智能

头条号入驻

拆解一台AI工作站，深入了解为何高性能AI PC对提示工程师来说至关重要

荣耀如何用第一性原理造手机？

荣耀如何用第一性原理造手机？

财经自媒体联盟更多自媒体作者

热文排行榜