机器人“图灵时刻”何时到？四名创始人答曰：五年内见真章丨最前线_

作者丨邱晓芬

编辑丨苏建勋

在2024年的云栖大会上，作为AGI的一项重要支线，具身智能也成为了其中一大讨论焦点。

在“机器人的图灵时刻”论坛上，阿里特意邀请了四家当前炙手可热的人形机器人厂商——宇树科技、星动纪元、银河通用、逐迹动力，针对今年的机器人热潮的本质、发展历程、如何落地、技术难点等关键问题展开了讨论。

不过，不像AI的论坛那么针锋相对，四位创始人对于机器人赛道的判断基本一致，大家认为：

本次机器人走向台前不是靠自我革命，而是靠大模型能力助推，具身智能将会是多模态大模型的killer APP；
通用机器人本质解决两件事：移动、操作；此次机器人行业变革两个关键词：泛化、从专用到通用；
机器人领域发展历程：从规则驱动、到算法驱动、再到数据驱动
对机器人落地的判断：5年，在某些特定场景（工业/零售等）会有大规模落地；10年，能进家庭；15年，产生大千万级别市场；
商业化落地的路径是：先从单一场景+多任务+可移动做起；再做多场景+多任务，最后普及到全场景+全任务。

以下是星动纪元创始人陈建宇、银河通用创始人王鹤、宇树科技创始人王兴兴、逐迹动力创始人张巍的交流整理（略惊摘编）

主持人：通用机器人一定要做成人形吗？

王兴兴：好几年前有投资人问我，我们做不做人形机器人？我说我坚决地反对做人形机器人，我当时在大一，09年、10年的时候，我自己就做过小的人形机器人。做过好以后，我发现全球当前的人类技术其实没办法驾驭这么复杂的机器人系统。

但是2016年开始，新的AI技术诞生了，在差不多在22年的时候，整个的大语言模型的效果已经非常惊艳，整个AI技术发展是远超我自己预计的，所以我们在23年初正式开始做人形机器人，目前取得的效果也非常惊艳。

机器人整个发展节奏，无论是硬件和软件，都是超过我自己预计的节奏。

张巍：我觉得一定要做成人形，而且是有两条腿的人形机器人。

我简单说一下我对通用机器人的理解。我首先觉得机器人和AI的使命是不同的，AI是代替人来思考决策的，而机器人本质上要代替人来运动。

大家看到各式各样的机器人非常多，本质上就在做两件事情，一件事情是要移动（Mobility），空间中从 a 到 b；另一件事情是，操作。

所谓的通用机器人，在这两个能力上都能达到跟人一样的环境适应能力和任务的泛化性。值得一提的是，通用的移动能力其实是不太需要双臂的，但是通用的操作能力反而是需要双腿的，不然你可能都没法到人能到的地方去干活。

我觉得 AGI 的发展最相比上一代最大的区别，就是从专用到通用的变化，在大模型出来之前，我感觉通用这个词是个贬义词，通用，就是证明它是没啥用。

但是大模型出来以后，大家发现，以前我们这种在专业领域里收集数据，去做专项任务的训练方式是有很大局限性的，反而我们要忽略专项的能力，要先构建通用的基础模型能力，再在上面长出专用的能力，这才是系统化解决泛化性的关键。

我觉得软件算法的通用性，就靠大模型技术；机器人跟物理世界交互的通用性，就靠人形机器人。

主持人：您怎么定义人形机器人形态？

王鹤：我们公司叫银河通用，我们从建立的第一天就是要达成通用机器人。当然通用有一个过程，他先做到单一场景、多任务、可移动，然后再做到多场景、多任务，最后做到全场景、全任务。在这个过程中，形态上在不同阶段也有它最适合、最经济、最稳定的载体。

通用机器人这个万亿市场刚刚开局的时候，我们选择了先从几个场景里头的多任务做起，比如零售商超场景上货下货，在工厂里去抱箱子，其实我们发现如果它是平地的话，轮子是够用的，也不能说我们没有腿，我们是把两只腿并在了一体。

那为什么要有双手呢？因为我们发现，比如说你在超市里头一只手拿篮子，一只手拿货，也是要两只手，所以我们的形态目前是360度轮，双腿并成一条腿，站直一米七三，够到二米四，蹲下来可以摸地，用最便宜的价格、最稳定的机器人技术率先实现可以落地的机器人。

主持人：具身智能和人形机器人，大家讨论的时候，总是把两个词语放在一块，您怎么看？

陈建宇：这个确实是比较容易混淆的两个概念，但是他们的侧重点是不太相同的。

对具身智能来说，我们主要关注智能性和软件。具身智能其实对形态其实是要求不高的，可以是人形的、四足的、轮式的、单个机械臂的，甚至就是一个桌子、椅子，只要它能动，都可以给他赋予具身智能，是一个更广泛的概念。

人形机器人顾名思义一定是人形的。

主持人：机器人现在有很多种类，怎么判断它的技术含量？

陈建宇：非常粗略的把人形机器人相关的技术分成三大块的话，其实就是大脑、小脑和本体。

我觉得这里面最关键的是小脑，它是最基础的部分，就如果你只有一个本体、大脑，缺了小脑的话，其实你只能成为一个会思考的一堆烂铁。

小脑是承接大脑思考、规划的，同时也是技术不确定性最高的，最没有收敛的。但是我们是有蛮多的产业可以去借鉴，包括我们的工业机器人产业、电动车的产业。

对于小脑来说，我们发现大部分的机器人用的还是十几年前，甚至几十年前的扫地机这一类的技术去做。

王鹤：我认为人形机器人的技术含金量可以从这两个地方总结：

一，他的泛化性到底有多强？是不是真正能通向未来的通用？

二，它能不能跟人之间用自然语言来沟通，然后实现零代码的部署？不仅能干活，还能交流。

张巍：机器人就看两个关键词，一个叫泛化，一个叫通用，这是本次变革最关键的两个词。

我提供个我的角度，我觉得咱们先看腿，人形机器人之所以是一个新的物种，它不是一个传统机械臂公司的延续，它的本质就是要长出两条腿来。

那看腿也要看什么呢？主要看两点，一个就是腿，他能不能完成他本能的一些本职的工作，就是地形的泛化能力。第二点是看他能不能支撑双臂去完成全身协同的通用操作，这也是腿存在的一个重要的价值。

主持人：机器人到底什么时候能干活？

陈建宇：如果说我们不是特别严苛的定义，就是说它能初步去用起来的话，那我认为不管是工业还是商用，甚至是家用，一两年的时间就能有，根据罗杰斯的那个创新扩散的模型，都有一些早期的一些使用

工业的场景会更快一些，因为它是有边界的，你可以人为的制定一些规则，所以在它的图灵时刻还没到来之前，机器人可能就能逐步应用起来。

王鹤：以零售场景为例，现在的技术已经达到了产业化的边界了，我们预测就是从明年开始将会是商用的元年。

5年，我们的目标是在这样的场景和车厂的抱箱子里头达到一万台；10年，是我认为安全性可以进入家庭标准的；15年，我预计可能会产生千万乃至大千万级别的市场。

王兴兴：我个人的话相对比较乐观，我觉得到明年，像一些工业场景，明年基本上该问题不大，我觉得三年左右至少全球范围内有通用型的 AI 出来，因为跟过去十年不一样了，现在整个机器人AI人才资金投入是巨量的，都是几百倍甚至上千倍的投入。五年应该会有天翻地覆的变化。

张巍：我认为用时间去衡量它，是一个比较难的事情，我管这个赛道的产业的发展叫事件驱动，而不是时间驱动。它更关键的是看这个 AI 技术、关键的开关什么时候能找到，而不能用时间去具体的衡量它。

我也是相对乐观的。只不过我也说，我们要避免过早的去做商业化，比如说在大模型ChatGPT 2.0、3.0的时候你要做个超级应用，那肯定要打一堆补丁，因为上一代人工智能和机器人落地的过程中也遇到了很多这种挑战，大家都调侃说“人工智能等于智能不够靠人工”，所以是靠很多这个增加了部署的售后成本，最终商业逻辑还是挺难跑通的。

主持人：大模型对人形机器人的发展，起到了什么样的影响？

张巍：我觉得机器人这一波的发展不是自我革命，发展是靠大模型技术和大模型技术背后的技术，我甚至认为具身智能将会是多模态大模型的一个killer APP。当然我把无人驾驶也算在我们具身智能赛道里边来了。

我觉得这几年由于受到大模型技术发展的一个启发，机器人领域的发展也经历了从规则驱动、到算法驱动、再到数据驱动的一个跳变啊。

以前你可能看你有什么算法，然后根据算法的需求来收数据来解决问题。现在的思维变了，我们要首先看你有什么数据，然后你获取新数据的方式和成本是怎么样？数据的分布是什么样的？

这就直接的决定了你采用什么样的算法去训练，所以我们公司有个口号叫，软件定义硬件，但数据定义软件。

王兴兴：我一直感觉，通用人机器人算是大模型的最好的一个落地的载体，二者是非常好的一个组合关系

王鹤：我觉得就是现在的通用机器人，几乎都是分立的小模型，所以大模型赋能技能有几步？

第一步是，大模型可以作为一个agent来调用这些 API ，进行长程的任务规划；

第二步是大模型可以作为一个monitor，看小模型执行过程中有没有出任何错误，及时的去终止、挽救这些错误，比如药盒子掉在地上了，他立马说你也给他捡起来；

第三步是最有想象力的，就是端到端的vision language action，把动作作为大模型输出的模态，像自动驾驶一样，做一个把通用感知、通用规划和通用执行融为一体的大模型。

陈建宇：：我认为大模型这边带给我们最重要的启发就是，告诉我们有 scaling law的存在，启发我们去思考怎么样去做机器人的scaling law。

同时它也带着我们来一些语言模型领域的一些技术，比如说 Transformer的架构。算法层面、模型层面，还是数据层面，其实都有很多的不同，需要我们去探索。