大模型冲击人形机器人赛道后,一个万亿美金的新故事丨36氪新风向

大模型冲击人形机器人赛道后,一个万亿美金的新故事丨36氪新风向
2024年06月27日 09:30 36氪

作者|黄楠

编辑|袁斯来

1978年北京,在早稻田大学加藤一郎举办的座谈会上,现场播放了一段WABOT-15机器人的影像。 

这是世界上第一个全尺寸人形智能机器人。画面中,WABOT-15缓慢地抬起脚。它每迈一步需要45秒,仅10公分的步幅,约为成年人类六分之一,但依旧引起全场轰动。 

四十五年后,位于合肥市的蔚来汽车生产车间内,一台优必选人形机器人Walker S正式进入工厂实地培训。Walker S身高近1.7米,外形上更接近人类,搭载41个伺服关节和多个感知系统。它对环境的感知更灵敏,动作也更灵活,已经开始替代部分工人完成工作。 

过去数年,国内人形机器人领域技术几经发展迭代,无数科技公司投身其中,推动人形机器人自缓慢静态行走、连续动态行走、高动态运动,步入今天的产业化前夜。 

根据国际机器人协会预测,2021年至2030年,全球人形机器人市场的年化复合增长率将达到71%;到2030年,其产业规模可达万亿美金左右,其中我国人形机器人市场规模有望达到8700亿元。 

很长一段时间里,工业机器人都以传统协作臂形态存在,执行完成产线上的单点任务。人形机器人则处于全然不同的图景中。 

它可以进行门锁质检、车灯盖、板检测、安全带检测、贴车标等工作,覆盖多个生产环节,同时还能与人类员工互相配合,完成汽车装配及质量检查作业。比如特斯拉所释出的擎天柱(Optimus)在自家工厂工作的视频中,擎天柱能重复拿取电池、放进电池槽中并将电池排列整齐。  

擎天柱在车间取电池(图源:特斯拉官方视频)

而进入工厂只是第一步。“让人形机器人走进千家万户”,是这场叙事里所有人共同追求的终极目标。 

过去由于技术不成熟,机器人只能提供case by case服务,缺乏对复杂场景的认知能力,应用空间局限;同时在本体控制层,人形动作僵硬,需按照预设好的算法运行,不具备更智能的灵巧操作能力。 

直至2023年,大模型席卷行业,给了人形机器人具身智能这一新转折,资本也闻风涌入。 

赛迪研究院报告显示,2023年人形机器人领域共计发生投融资案例22起,包括宇树科技、银河通用、达闼机器人、智元机器人和逐际动力等融资金额均超过亿元;今年已发生投融资事件7起,金额最高的是宇树近10亿元的B2轮融资。 

具身智能描摹出一个想象力十足的未来。大模型的加持无疑会大幅度提升机器人认知和决策能力。但市场对人形机器人的判断,出现了两类截然相反的声音。 

一种认为下半年将会有企业率先跑进场景,人形机器人替代人类工作进程加速;另一种则认为,目前人形机器人的智能化还很早期,成本、效率问题未解,更遑论形成一套清晰的商业模式。 

为此,36氪走访了数十位人形机器人从业者,希望通过本文来回答以下几个问题: 

1、对比上一代技术路径,“新”的人形机器人企业其革命性体现在哪里? 

2、从研究到产品化的过程中,有哪些比较关键的硬件成本?存在哪些挑战? 

3、如何看待人形机器人要重点突破的场景?现在谈商业化是否为时过早? 

大模型砸中机器人行业

以去年爆发的具身智能为分水岭,从2010年开始,可以将国内人形机器人技术路径划分为两个阶段。 

第一阶段的技术路径围绕具体任务、从单个场景出发。这类人形机器人多以本体为基础,通过在本地改进算法、增加算力来增强机器人能力。先预设任务在场景中的执行边界,用户下发指令后,收集现有数据进行训练,于限定范围内穷举出能解决任务的多个算法,尽可能覆盖更多路径。  

简单来说,当我们想让机器人倒咖啡、就设计一个倒咖啡的模型,想让机器人在工厂里拧螺丝、就设置一个拧螺丝的程序。 

比如工业场景的搬运机器人,工程师会针对特定园区提前设置运输线路,机器人只需在固定路径上完成配送任务,灵活性低、但稳定性强;在多条路线的情况下,这些路径也可以用算法提前规划好。然而,机器人一旦脱离该地图所设定的任务,便无法运转。 

因此,面对新场景和任务,人形机器人都需要重新收集数据训练、设定方案和测试,导致了极大的资源损耗。即使在生产中注入自动化属性,对人类劳动力的释放也十分有限。 

但在新一轮人形机器人浪潮中,以具身智能为代表的技术路径更强调泛化性,追求多场景适配。大模型能解决多种任务,这一通用能力被引入到人形机器人之后,令人们第一次看到了机器人从单任务式交付到规模化应用的可能。 

“一个具体的转变是,过去大家对机器人的要求是只需要定岗、提前把事项预编好,然后去执行就可以了。但人形机器人不是。人们希望它既能是个熟练的螺丝工、同时又具备质检等其他工作能力,可以灵活配置,最终替代工厂里的员工完成繁重、枯燥性工作,而不是替掉现有的重型机械臂、传送带等。”乐聚机器人副总裁柯真东告诉36氪。 

夸父机器人在工厂内工作(图源:乐聚机器人)

场景能否差异化的决定性因素就是泛化的大脑。这源自两大能力提升:一是基于自然语言的理解能力。嵌入大模型交互后,机器人能听懂语言,理解人类需求,并将其分解为序列化指令、下发让机器人到目标地点执行任务。 

第二是学习能力。非结构化的环境下,大模型加上多维传感器,能够学习、识辨并构建环节,在打穿mobile(移动)、pick(抓取)、place(搬运)三大基础能力之上,让人形机器人具备多场景作业的能力。 

以银河通用的具身多模态小脑大模型为例。工作人员在后台下单一样药品、这是意图;而后双臂轮式机器人接收到指令,将其分解为具体的运动步骤。模型会先识别出药品、锁定其在货架上的位置,再伸出右臂吸盘抓取,由左臂两指夹放进篮筐内。 

这一系列动作由感知模型和操作模型协同完成,全程无人工参与,当货架上发生药品摆放位置错误、倒放等状态时,机器人会掠过它们,直接抓取后排正确的药品。  

 Galbot正在捡垃圾(图源:银河通用)

“泛化性本质在于,任意场景、任意物体、任意情形下机器人mobile、pick、place都能成功。”北大-银河通用具身智能联合实验室主任王鹤向36氪指出。

可以看出,面对突发情况时,理想状态下的人形机器人能够结合先前经验学习并复制泛化。

采访中,多位关注人形机器人赛道的投资人普遍认为,“今天人形机器人公司的优势都属于阶段性长板,最终要形成自己的闭环,核心在于各家技术擅长点与想做的场景是否匹配、能否在场景中打通。”

在本体层,人形机器人泛化则体现为下肢形态的选择上。 

人形机器人的上肢结构相对稳定,根据移动方式,下肢可大致分为两种,分别是以底盘为重心的轮式以及与人类相似的足式。 

轮式机器人主要在平面、结构化道路上运动,如导购机器人、酒店配送机器人等。它的优势在于技术发展成熟,方向盘和轮子两个驱动,就可以完成前进、后退和转弯,底盘比较重、能够支撑机身稳定。

但其局限性也很明显,无法在楼梯、野外、狭窄通道、凹凸不平的地面等非结构化路面行走,对复杂地形的适应能力较差,应用场景有限。

对比之下,人形双足机器人在空间应用的通用性更强,末端控制自由度更高,面对复杂场景时,它可以通过及时调整双腿间重心来保持平衡,执行多种任务。这对机器人的控制能力提出了更高要求。捕捉到环境信息后,机器人的腿要适应不同地形,并能负重。

以野外行走为例,足式机器人需要先感知并理解周围的环境情况,是泥泞的土路还是颠簸的石子路、上下坡的地形等,这些信息往往是动态的。根据现场环境变动,足式机器人会自主规划新线路,并调整行走姿态和控制运动。

但目前,市场上暂时未出现一款真正达到智能水平的人形双足机器人产品,轮式机器人成为不少公司现阶段商业化的首选形态。例如1X的EVE轮式仿真机器人、银河通用的双臂+轮式仿生机器人、达闼机器人的Ginger系列人形服务云端机器人,还有可根据场景选配下肢是轮式或足式的戴盟Sparky 1人形机器人等。

“归根结底,双足人形机器人推动了整个驱动、特别是电机驱动产业的发展。但人类大部分工作场景都是在平面中完成的,例如办公室、工厂、购物中心等。”达闼机器人CEO黄晓庆告诉36氪,“匹配现阶段机器人智能水平的前提下,轮式已经可以覆盖很大一部分应用场景。”

人形机器人的本质是为了通用,在不同场景和任务下,将人类从危险系数大、重复枯燥的工作中释放出来。“我们要做的是尊重能力发展的规律,现阶段人形机器人哪方面能力是ready的,就完成多少工作。”王鹤说。

以银河通用轮式机器人Galbot为例。Galbot采用人形上肢加轮式的形态,由于轮式机器人无法实现下蹲、伸高等垂直空间移动,银河通用提出了可伸缩躯干,蹲下手臂可以摸到地面,完全站立可以摸高达2.4米,并向橱柜等内部结构伸入抓取,除特殊狭窄通道外,基本可以达到跟人类相同的活动和操作空间。

 Galbot将机械臂伸入橱柜内(图源:银河通用)

可以看到,具身智能从大脑层面增强了机器人对任务的理解能力、并进行逻辑推理,将人形机器人推向一个新台阶。而硬件本体层面,双足和轮式结构技术也逐渐成熟。软硬件两方面革新终让多场景泛化成为可能。 

但人形机器人终究要从Demo视频跨入真实场景。目前最紧迫的难题便是如何从实验室走向规模化。 

硬件成本高、数据采集难

作为集AI技术、软件算法、运动控制、硬件结构等为一体的移动终端,人形机器人是目前公认的难度系数最高的产品。

与工业机器人和服务机器人相比,人形机器人的结构更复杂。比如,常见工业机器人的关节数量一般为2-10个,而人形机器人多超过40个,有近5000多个零部件,系统工程量极大,在硬件搭配、控制算法及核心零部件选择上都有差异。

当前,要让人形机器人真正走进场景得以应用,首先需要跨过这些硬件的成本大山。比如特斯拉擎天柱,仅丝杠关节的总价就高达16万元。 

人形机器人核心零部件中,技术难度最高分别是减速器、伺服系统和控制器,占成本比例的60-70%。

当前关节所用的伺服电机主要从海外进口,安川、松下、三菱等日系厂商占据国内近50%市场,价格昂贵。

减速器方面,常见的方案分为行星减速器、谐波减速器,二者在结构、工作原理、应用领域以及优缺点上存在显著的区别。

其中,行星减速器的承载能力强、效率更高、成本低,力矩透明度较大,单级传动减速比小,多用于对精度要求相对不高的运动结构。 

而谐波减速器的优势在于,它的体积较小、重量轻、传动精度更高,单级传动比大,但缺点是随着使用时间增长,柔轮易发生疲劳破坏,承载能力和使用寿命相比行星减速器较低,成本相对较高。

目前工业界还没有一个得到公认的减速器方案,“根据减速器性能和产品需求不同,考虑成本的选行星、做轻量化的选谐波,各家做各家的。”黄晓庆告诉36氪。

其他硬件方面,人形机器人所用到的控制器、传感器、电池系统等,和工业机器人和新能源车等领域有较大的重复性。通过复用部分传统制造业的供应链资源,国产硬件供应商具备很强的低成本、大规模量产能力,可有效降低人形机器人的整机成本。 

除伺服电机等零部件外,当前人形机器人大型关节的国产化率为90%,小型关节国产化率更是达到95%以上。人形机器人成本开始有下探的迹象。

5月13日,宇树科技Unitree G1人形智能体在京东上架,售价9.9万元起,比特斯拉擎天柱喊出低于2万美元(折合人民币约14.5万)的价格便宜4.6万元,率先在人形机器人领域打响了价格战。

“基于过去在四足狗产品的经验,宇树的供应链能力上去了,在成本控制方面做得很好。Unitree G1人形智能体9.9万元的售价,也证明了其规模化生产的能力,对其他人形机器人企业来说是件好事。”某关注AI+机器人赛道的FA高宇说到。

即便如此,宇树人形机器人还没能满足市场对价格的预期。 据36氪了解,对比传统工业机器人一体化关节,由于人形机器人尚处在产品化早期,因此,大部分下游客户对成本非常敏感。

钛虎机器人联合创始人易港告诉36氪,“工业领域的客户对可承受的价格阈值更高,哪怕售价5000元、也有愿意付费的客户。但人形机器人客户大多只能接受1000-2000元的价格。”

人形机器人仍陷在客户不买账、量产难进而边际成本无法降低的矛盾中。 

硬件行业的爆发最初会依靠一些资金雄厚的冒险者开局,但行业迈向商业化最终只能依靠规模量产后不断降低边际成本。 

“要能把研发、开模以及其他加工费用摊薄,目前很多厂家愿意前期低价合作,做定制化开发。但要正儿八经有产线,得有一两家本体公司跑出来量后才有可能。” 柯真东表示。 

当然,这是新行业启动时必然跋涉的路径。产业不断成熟,政府政策支持,大量社会资本与各种产业基金爆发性投入,会加速国内具有竞争优势的供应链形成。北航机器人研究所名誉所长、中关村智友研究院院长王田苗预测,人形机器人未来成本将下降至少50%。 

根据《2024年中国人形机器人行业研究报告》,人形机器人按量产规模不同,降本大致可划分为三个阶段:小批量千台量级生产,降本20%-30%至约10万美元;万台级别降本50%至5万美元;数十万至百万台大规模量产,降本70%-80%至2-3万美元。 

优必选副总裁、研究院执行院长焦继超告诉36氪,目前,优必选真人尺寸工业版人形机器人Walker S的成本大约为4-5万美元。 

Walker S在蔚来车间(图源:优必选) 

另一方面,训练数据采集的难度,是横亘在人形机器人规模化落地面前的第二座大山。 

今年4月,特斯拉推出多模态大模型Grok-1.5v,利用端到端高速大模型FSD(Full-Self Driving,完全自动驾驶)推理,将足够多的用户数据清理干净后喂给模型,以解决自动驾驶边缘案例的在线迭代学习问题。 

特斯拉擎天柱能在有限简单场景下进行自主作业,其核心依靠数据驱动:采集海量的优质数据,覆盖各类场景和物体,并通过具身智能提炼泛化能力。 

目前,人形机器人公司对数据的需求可以分为三类。 

第一,通过数据理解世界规律。例如,空间内存在桌子和杯子两个分离物体,把杯子从桌上拿走,可以转移放到另一张桌子上、也可能掉落摔碎。通过大量数据学习,让机器人理解任务意图。 

第二,借助模拟数据学习逻辑推理和决策能力。机器人完成一项任务是由系列动作构成的。让机器人从货架上取一瓶牛奶,从什么角度去抓,纸壳包装和易拉罐装的力度等,过去并没有数据集可学习,但借助模拟环境,可以让机器人掌握各种抓取方法。 

第三,真实场景的应用数据。比如让机器人将给iPhone手机充电,首先需要辨识手机充电口和各类数据线插头,经Sim-to-real transfer(模拟环境向真实世界迁移)掌握方法后,再通过Tele-operation(遥操作)方法完成。 

三类数据侧重点不同会影响人形机器人的精度和成功率。例如谷歌和特斯拉的方案,均采用真实世界数据采集为主、持续优化Tele-operation。特斯拉的VR Tele-operation系统,可以第一视角操控人形机器人,看其所看、动起所动,当人的手臂摆动时,机器人也会跟着运动。这套系统被特斯拉应用在其碱电池工厂中。 

“人形机器人最终落地是多种形态的,要提前做产业化布局,就意味着它需要提前进入场景迭代,获取数据、再不断地迭代,去适配场景的真实需求。”星动纪元联合创始人席悦向36氪如是说。 

真实数据的增加有利于机器人提高智能水平。但要跨越鸿沟,真实数据需要提高多样性和质量,并非单纯数量堆砌。 

举个例子,碱电池工厂的电池是固定的、外包装使用固定的盒子,在物体位置和环境相对固定的情况下,训练所得的数据与Imitation Learning(模仿学习)没太大差异,机器人的智能也并没有得到拓展和增加。 

 “在机器人领域,我们面临着海量未标注的异构行为大数据,这使得语义与数据的精准对齐变得异常困难,其中涉及语义歧义问题、模型幻觉的安全问题,以及标准化测试平台和使用安全的评价问题等。”王田苗在采访中向36氪指出。 

优必选使用的训练数据中,由Tele-operation所收集的真实数据占20%,比如工具使用、工厂中的零件分拣等;像桌椅板凳、地面墙面、人类和环境等通用目标识别,则是基于其他类型机器人积累的数据,可直接用在人形机器人训练。此外还有80%的数据通过仿真环境合成获得。 

由于真实数据稀缺,采集难度大、成本高,仿真合成数据被许多人形机器人企业视为解决数据问题的最优选。 

以达闼机器人的数字孪生方案为例。公司搭建了一套实时同步、虚实转换的数据收集系统,通过传感器,可以将人所在环境扫描并传输到云端,以30Hz/秒进行重建,将机器人放置在孪生环境中进行训练。简而言之,就是将机器人看作一个NPC,各项任务是一个个游戏,用AI驱动人形机器人在“游戏”中运行。 

基于RobotGPT多模态大模型(图源:达闼机器人) 

“这时候,我们要多少合成数据就有多少,需要什么场景、也可以通过数字孪生的方式随时搭建。当数据在时间轴上被拉长、以切片形式存在,突发问题也变成了静止问题。”黄晓庆说。 

然而,合成数据的劣势在于,它与真实数据之间存在数据分布的差异,实时性不强,在落地时,会面临更高要求的精度问题。

对此王鹤表示,“这件事的解决有先例。宇树四足狗的运动、跑跳,以及双足行走,都是通过大规模仿真强化学习实现的。这就说明Sim2Real(从模拟到真实)虽然有gap,但是可以做得很work的。”

对于一个真正称得上智能的人形机器人,这三种数据没有优劣之分。但 “目前市场上,能够在同一个阶段把几类数据都同步做好的公司几乎没有,普遍做法是根据自身的技术优势,优先从擅长方向切入。”光源资本董事总经理娄洋告诉36氪。

当前,人形机器人距离里程碑式的跨越还很遥远。只是,如今的资本并没有技术界的耐心。他们要看到可预见的商业化路径,没人会为脆弱的愿景买单。

  机器人表演群舞“千手观音”(图源:达闼机器人) 

商业化倒计时

今年4月,亚马逊的媒体活动日上,Agility Robotics分享了人形机器人Digit在亚马逊仓库的工作画面。 

这次“员工试用期”始于2023年10月,经过三个多月实践,Digit已经可以连续工作7.5个小时,效率为人类速度的75%,任务成功率达到97%。 

亚马逊仓库内有75万台物流机器人,在这之后,公司正考虑测试Digit人形机器人的物流托盘。按照人工作业5至8个小时、20-30元/小时,机器人连续工作5年即可回本。 

根据高盛测算,预计2025年,少批量资金雄厚的人形机器人公司有望进入商业化试点,到2035年其替代率或从5%提高10%至15%,出货量翻4倍、将达到140万台。 

人形机器人展现出了庞大的市场需求。但如上所述,现阶段行业存在技术、成本等问题,部分国内企业仍处于产品测试阶段,商业化进程还在早期。 

当中的核心锚点,是公司能否找到擅长的应用场景。 

在所有人形机器人企业中,大家都会谈到的问题是——找到PMF。 Product market fit(产品-市场匹配),就是产品要能够解决真实的需求,其中产品所创造的价值往往比产品售价本身还要贵。

可以看到,当前国内外人形机器人已进入汽车生产车间、物流仓储间,可以完成一些基础性的工作。在席悦看来,随着机器人运动机能进一步提升,落地场景将会从车间的单一的基础劳动过度到复杂的柔性任务,逐步向服务业迈进,最终走进千家万户。 

王田苗认为,人形机器人的落地会先从商务场景切入,然后进入工业场景,最后再到消费场景。而“产品化过程需要时间来产生并验证价值,因此,基于场景的融合打磨与迭代变得至关重要。”

 “当面对具体场景时,我们要解决的问题就变成了‘如何提高机器人的鲁棒性’(即在异常和危险情况下、保持机器的稳定运行),让人形机器人的适应性和部署效率,能够在真实应用环境中切实落地。”焦继超表示。 

目前公司们主要朝三个方向掘金: 

第一种是以教育科研、开发者用户为主,用于做人形机器人技术研究、产品二次开发以及开设教育课程、比赛等;这部分订单在早期可以为企业带来较为稳定的收入,保持造血能力。 

第二种是B端客户,面向典型制造业、物流仓储业、商区服务业;这批客户当下的需求是以前期案例示范应用为主,目的是为未来批量引入人形机器人做准备。 

第三种,也是所有人形机器人企业的终极目标,面向C端客户,真正实现机器人走进千家万户,为每个家庭服务。 

娄洋指出,以具身智能为核心的新一代人形机器人公司中, “大家当前在场景侧的选取和市场端的切入上尚未达成共识。有些探索进度快,有些相对较慢,但进度更快的公司所选取的路径,并不一定代表着该场景的最优解。目前场景落地的可行性和优劣与否还没有明确答案。” 

以工业场景为例,就存在落地成本不确定,以及数据训练和实际应用转化之间的错配问题。工厂对机器人的要求通常以精准成本为导向,期待机器人能够每天完成固定的任务,确保生产的稳定性。然而,人形机器人的智能水平提升需要更强的泛化性和应变能力。与生活场景相比,工业环境能提供给机器人的反馈和学习机会相对受限。 

夸父机器人正在炒菜(图源:乐聚机器人) 

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍从资本视角来看,找到适配的场景以验证技术的有效性已十分迫切。 “尤其是对于那些估值普遍超过20亿人民币的第一梯队公司。”娄洋说。

这些公司的机器人,首先要在一个特定场景中做到跟人一样好,甚至比人做得好,包括承担更危险的工作、实现更高的精度、解决招人难题,或是用于成本更低的自动化任务等。在单一场景验证后,公司再考虑向更广泛的应用场景进行技术泛化。 

眼下各家在融资上仍有窗口期,绝对差距暂未被拉开。多位投资人告诉36氪,对人形机器人公司来说,接下来比拼的焦点是差异化, Demo视频大家都有、场景实际表现才是见真章。

市场上的钱毕竟有限。头部企业能聚拢到更多的资源,拥有更多试错的可能,包括提高人才密度、买好的技术团队、提升产线等。 对尚未找到清晰落地场景的新团队来说,融资的大门正在关闭。

过去10年,AI给太多行业带来过希望和失望。具身智能的概念足够性感,但还没有清晰的轮廓。甚至目前人们期待的机器人未必就是长得最像人、最智能的形态。 

“机器人是人形的也好、其他形态的也好,在我们看来,希望它短期内替代人类做些复杂、危险的工作,让人们活的更轻松点;长期来看,更智能的人形机器人还可以为我们提供情感价值。这是场景落地真正的价值所在。”焦继超表示。 

具身智能带来了一场颠覆式的生产力变革,但从进入产业到终极生活场景的落地,行业需要时间。在这些新的技术路径、硬件设计、供应链搭建、市场需求驱动的共同作用下,我们要做的事情还有很多。 

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部