神秘的“华为系”具身团队,回应11个关键问题

神秘的“华为系”具身团队,回应11个关键问题
2025年12月30日 17:26 36氪

文|王欣

编辑|苏建勋

在2025年火热的具身智能创业潮中,“它石智航”有着绝对吸睛的实力。

这是一个由国内智驾黄埔军校核心高管组成的“梦之队”。它石智航首席执行官陈亦伦曾在华为车BU担任自动驾驶系统CTO;首席科学家丁文超曾是华为“天才少年”。董事长李震宇则担任过百度智能驾驶事业群原总裁,打造过全球最大的Robotaxi出行平台“萝卜快跑”。

在自动驾驶行业,陈亦伦、李震宇均是带过千人团队、打过胜仗的“名将”,两人的合作创业,也让它石智航迅速成为资本的宠儿。在今年3月,它石智航以1.2 亿美元的融资额,创下中国具身智能行业天使轮最大融资额纪录。

资本看重它石智航的技术积累和人才储备。线性资本创始人兼 CEO 王淮曾这样评价它石智航:“他们能将之前在华为做自动驾驶的很多软硬件打磨的经验,结合大模型的思考和推理能力,落实在具身机器人身上。”

可在天使轮融资破纪录,创始团队如此豪华的状况下,不同于其他具身智能公司高频地披露出货量与技术突破,2025年一年,它石智航鲜少公布进展。

12月19日,它石智航办了一场线上发布会,持续时间只有短短40分钟,展示的成果,是“全球首个完成刺绣的机器人”。

为什么要选这个场景?“这是我们目前技术能力的外溢。”它石智航CEO陈亦伦告诉《智能涌现》,他口中的技术能力,指代长程(包括多个环节任务)、精细复杂(类似刺绣)的动作问题,并且操作对象是柔性的、不易建模的物体。

目前具身行业常用抓取、叠衣服、倒咖啡展示技术能力。据它石智航官方透露,此前并没有企业公开展示过机器人刺绣这一能力。这是因为对于机器人来说,处理柔性物体的难度要远远大于刚性物品。

通用的VLA很难处理这一难题。VLA本质是视觉引导的任务,因此在力或触觉等感受维度天然存在瓶颈。所以我们可以看到行业在视觉上的探索已经逐渐收敛,但关于如何去处理力或触觉,行业并没有达成共识,也并没有一套统一的数据采集方法。

而世界模型则可以解决这一难题。这也是它石智航的重要业务板块之一,它石构建了其具身基础模型——TARS AWE (AI World Engine)2.0。把现实采集到的数据,用一段式全身端到端学习,迁移到机器人本体。

处理柔性物体的难点在于——不仅要知道自己怎么动,还要知道动了之后环境世界会怎么演化,需要对变化做变化。而世界模型恰好能破解这一核心矛盾,它能够预测两个关键因素中:第一是看到这个场景后采取什么样的行动,第二是建立一个模型,模拟行动后世界会如何变化。

世界模型的核心挑战,在于数据和空间感知力。

如何应对这一挑战?它石智航CEO陈亦伦和首席科学家丁文超,回想起了在智驾时期沉淀的技术思考。他们发现具身行业的许多问题,都能从智驾的发展历程中找到答案。

此前在蓝驰创投的2025人民币基金合伙人年会上,陈亦伦就曾谈到2022年离开华为自动驾驶团队时,他交付的最后一个产品特性是端到端系统。当时在非常复杂的人车混杂城中村场景部署后,工程师们都被它灵活智能的穿行效果惊呆了。一个黑盒的神经网络,仅靠端到端就能实现惊人效果,那一刻他意识到:算法替代复杂工程栈的时代已到来。

在这个过程中,他逐渐发现智驾和具身的overlap:“自动驾驶和机器人技术同宗同源,自动驾驶技术栈早期全来自机器人团队。当端到端在自驾中展现巨大威力,我深信机器人技术本身也必然存在一套对等的全AI化算法全栈。”

“具身的现阶段相当于智驾的 2019 年。” 陈亦伦对《智能涌现》谈到:“当问题单像雪花般飘来时,我们开始认真思索怎么将智驾真正做到规模化,使得解决问题的能力比发现问题的能力更高。”

与目前的具身行业相同,那时面临的瓶颈同样是缺乏数据。陈亦伦观察到,要突破智驾的数据关,需要10万小时精选高质量数据片段。具身智能因任务复杂度高,数据会高一个数量级,则需要至少100万小时真实场景数据。

这确立了它石智航的技术主线: 自研具身数据采集系统SenseHub(包括手套和全景相机),来采集真实人类场景下动作、语言、触觉等环境语义数据集。基于这些真实数据,进一步构建具身基础模型TARS AWE 2.0。

在陈亦伦和丁文超看来,这是探索具身智能 Scaling Law可行性的最短路径,即通过输入足够的数据来让机器人涌现出诸如刺绣等能力。

他们也看到这一能力的前景:“只有把柔性物体操作做得很好,才能真正实现柔性产线级生产力,真正实现工厂各个角落的自动化。”

以下是《智能涌现》与它石智航CEO陈亦伦、首席科学家丁文超的对话,内容经整理编辑:

1、Q:发布会展示的刺绣机器人,是为了展现机器人能力的 demo,还是说以后会量产这个设备?

陈亦伦:量产会有专门产业场景,这次刺绣展示属于机器人能力的外溢。

2、Q:这个能力的外溢,指的具体是什么?

陈亦伦:这一代具身该解决长程精细复杂的动作问题,而且操作对象是柔性的、不易建模的物体。抓取固态、大件物体上一代机器人已经做得很好。

3、Q:你们会选择哪些具体的工厂或工作环节作为落地场景?

陈亦伦:我们筛选落地场景的三个核心原则:真需求,必须来自市场的明确痛点;细颗粒度,解决方案能覆盖足够大的群体;高难度,真需求和大市场往往意味着极高的技术门槛,这是我们的核心竞争力。 以柔性组装为例,这是一个非常明确的落地场景,目前已经进入商业化阶段。

4、Q:和其他具身公司相比,你们在行业里很低调,外界也很关心你们的进展,可否介绍一下2025年取得的一些主要关键进展。

陈亦伦:我们在做三件事情——超级算法,超级本体,超级智能。

超级算法:我们认为它是一套比智驾系统更复杂的大型 AI 系统,需要攻克数据关、算法关以及环境交互层面的 Scaling law。 

超级本体:我们坚持自研硬件,目标是拥有“能为 AI 随心所欲设计硬件”的能力,确保硬件成为算法在物理世界中的最佳载体,而非简单的基础组装。 

超级应用:我们追求的是真正实现产业化,让技术作为生产工具或服务,传递真实的商业价值,而不是只做一个 demo。

5、Q:数据关方面,有没有一个量级的门槛?

陈亦伦:自动驾驶要做到商用级,需10万小时精选高质量数据片段,具身智能因任务复杂度高,我们判断其所需的数据量级至少是智驾的 10 倍以上,即 100 万小时起步 。

大家可以想象一下,该如何获取这100万个小时?而且它需要在真实场景中采集。 

大语言模型的数据来自人类在互联网上的真实文本数据,自动驾驶数据来源于人类真实驾驶数据,因此我们认为具身数据也应该来自于人类的感官、行为数据。

6、Q:展示视频的数据采集设备是手套吗?

陈亦伦:是的。我们首创了 Human Centric(以人为中心)的数据采集新范式。我们认为具身数据应来源于人类真实的感官和行为数据,核心是“手”和“眼” ,做到“看人之所看,感人之所感”。 这套自研的手套和全景相机设备比市面上现有的方案更复杂,能高保真还原手部的位置和触觉权重信息。哪怕你手套放到被子里头,我也能知道它在哪。

我们以前做自动驾驶激光雷达时,测量精度会达到厘米级。但对机器人操作而言,厘米级远远不够——必须达到毫米级甚至更高。

7、Q:自动驾驶与具身智能领域是否有共通之处?不同创业者对此看法差异大,你们怎么看?

陈亦伦:自动驾驶是一个十年的赛道,不同背景的团队在进入自动驾驶赛道的时间段是不一样的,因此看到的东西也很不一样。

在我看来,目前AI领域所遇到的问题挑战,和我在最开始做自动驾驶的时候几乎是一模一样,都可以找到对应。

我们把具身智能归为3+3+3三个阶段。第一个三年可能以 demo展示为主。我们切入时间是第二个三年,就是把 fancy 的技术,真正落地到产品化的过程。我们这个团队最大的魔力,是我们完整的经历过自动驾驶的工程化过程。

我们以前接受过用户雪花般的问题。如何去解决用户这么多问题,数据怎么配比?怎么训练?然后数据到模型间衔接,整个的数据闭环怎么去搭建?其实我们整个团队都经历过这些问题的磨练。

所以我们有信心把具身一整套的数据到模型的整个工程化链路做好。

8、Q:你们认为现在相当于智能驾驶的哪一年?

陈亦伦:2019年。2019 是智驾全栈转向 AI 的关键点,头部公司开始思考规模化商用。当时的瓶颈在于没有足够的数据,以及如何将数据与算法能力匹配。22年的时候,自驾技术开始向行业扩散,公众视野里自驾繁荣始于22年。今天的具身智能处境与当时的自驾非常相似:问题像“雪花”般涌来,迫使行业必须以 AI 的方式(如端到端)提高解题效率。

9、Q:在具身智能领域,遇到的瓶颈,也是数据采集的成本以及规模化的问题吗?

陈亦伦:第一,如何在有限的这种方式下获得大量的满意数据。第二,如何在过程中获得源源不断的真实数据。

10、Q: 所以我们在AI算法上遇到的瓶颈是因为数据不够好,不够多?

陈亦伦: AI 的本质就是一段 X 映射到 Y 的函数,智能的涌现需要足够的真实数据量来压缩。没有足够的数据量,是无法压缩出智能的。

11、Q:如何定义它石智航?它是一个 AI 公司、机器人公司、大脑公司还是本体公司?

陈亦伦: 我们认为下一代的超级单品可能是机器人。我们将这三件事情(硬件/软件/AI)一起做,所有硬件都为AI服务,目标是打造完整的产品价值,构建一个完整、可持续演进的系统。

封面来源|AI生成

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部