大模型冲击人形机器人赛道后，一个万亿美金的新故事丨36氪新风向_

作者｜黄楠

编辑｜袁斯来

1978年北京，在早稻田大学加藤一郎举办的座谈会上，现场播放了一段WABOT-15机器人的影像。

这是世界上第一个全尺寸人形智能机器人。画面中，WABOT-15缓慢地抬起脚。它每迈一步需要45秒，仅10公分的步幅，约为成年人类六分之一，但依旧引起全场轰动。

四十五年后，位于合肥市的蔚来汽车生产车间内，一台优必选人形机器人Walker S正式进入工厂实地培训。Walker S身高近1.7米，外形上更接近人类，搭载41个伺服关节和多个感知系统。它对环境的感知更灵敏，动作也更灵活，已经开始替代部分工人完成工作。

过去数年，国内人形机器人领域技术几经发展迭代，无数科技公司投身其中，推动人形机器人自缓慢静态行走、连续动态行走、高动态运动，步入今天的产业化前夜。

根据国际机器人协会预测，2021年至2030年，全球人形机器人市场的年化复合增长率将达到71%；到2030年，其产业规模可达万亿美金左右，其中我国人形机器人市场规模有望达到8700亿元。

很长一段时间里，工业机器人都以传统协作臂形态存在，执行完成产线上的单点任务。人形机器人则处于全然不同的图景中。

它可以进行门锁质检、车灯盖、板检测、安全带检测、贴车标等工作，覆盖多个生产环节，同时还能与人类员工互相配合，完成汽车装配及质量检查作业。比如特斯拉所释出的擎天柱（Optimus）在自家工厂工作的视频中，擎天柱能重复拿取电池、放进电池槽中并将电池排列整齐。

擎天柱在车间取电池（图源：特斯拉官方视频）

而进入工厂只是第一步。“让人形机器人走进千家万户”，是这场叙事里所有人共同追求的终极目标。

过去由于技术不成熟，机器人只能提供case by case服务，缺乏对复杂场景的认知能力，应用空间局限；同时在本体控制层，人形动作僵硬，需按照预设好的算法运行，不具备更智能的灵巧操作能力。

直至2023年，大模型席卷行业，给了人形机器人具身智能这一新转折，资本也闻风涌入。

赛迪研究院报告显示，2023年人形机器人领域共计发生投融资案例22起，包括宇树科技、银河通用、达闼机器人、智元机器人和逐际动力等融资金额均超过亿元；今年已发生投融资事件7起，金额最高的是宇树近10亿元的B2轮融资。

具身智能描摹出一个想象力十足的未来。大模型的加持无疑会大幅度提升机器人认知和决策能力。但市场对人形机器人的判断，出现了两类截然相反的声音。

一种认为下半年将会有企业率先跑进场景，人形机器人替代人类工作进程加速；另一种则认为，目前人形机器人的智能化还很早期，成本、效率问题未解，更遑论形成一套清晰的商业模式。

为此，36氪走访了数十位人形机器人从业者，希望通过本文来回答以下几个问题：

1、对比上一代技术路径，“新”的人形机器人企业其革命性体现在哪里？

2、从研究到产品化的过程中，有哪些比较关键的硬件成本？存在哪些挑战？

3、如何看待人形机器人要重点突破的场景？现在谈商业化是否为时过早？

大模型砸中机器人行业

以去年爆发的具身智能为分水岭，从2010年开始，可以将国内人形机器人技术路径划分为两个阶段。

第一阶段的技术路径围绕具体任务、从单个场景出发。这类人形机器人多以本体为基础，通过在本地改进算法、增加算力来增强机器人能力。先预设任务在场景中的执行边界，用户下发指令后，收集现有数据进行训练，于限定范围内穷举出能解决任务的多个算法，尽可能覆盖更多路径。

简单来说，当我们想让机器人倒咖啡、就设计一个倒咖啡的模型，想让机器人在工厂里拧螺丝、就设置一个拧螺丝的程序。

比如工业场景的搬运机器人，工程师会针对特定园区提前设置运输线路，机器人只需在固定路径上完成配送任务，灵活性低、但稳定性强；在多条路线的情况下，这些路径也可以用算法提前规划好。然而，机器人一旦脱离该地图所设定的任务，便无法运转。

因此，面对新场景和任务，人形机器人都需要重新收集数据训练、设定方案和测试，导致了极大的资源损耗。即使在生产中注入自动化属性，对人类劳动力的释放也十分有限。

但在新一轮人形机器人浪潮中，以具身智能为代表的技术路径更强调泛化性，追求多场景适配。大模型能解决多种任务，这一通用能力被引入到人形机器人之后，令人们第一次看到了机器人从单任务式交付到规模化应用的可能。

“一个具体的转变是，过去大家对机器人的要求是只需要定岗、提前把事项预编好，然后去执行就可以了。但人形机器人不是。人们希望它既能是个熟练的螺丝工、同时又具备质检等其他工作能力，可以灵活配置，最终替代工厂里的员工完成繁重、枯燥性工作，而不是替掉现有的重型机械臂、传送带等。”乐聚机器人副总裁柯真东告诉36氪。

夸父机器人在工厂内工作（图源：乐聚机器人）

场景能否差异化的决定性因素就是泛化的大脑。这源自两大能力提升：一是基于自然语言的理解能力。嵌入大模型交互后，机器人能听懂语言，理解人类需求，并将其分解为序列化指令、下发让机器人到目标地点执行任务。

第二是学习能力。非结构化的环境下，大模型加上多维传感器，能够学习、识辨并构建环节，在打穿mobile（移动）、pick（抓取）、place（搬运）三大基础能力之上，让人形机器人具备多场景作业的能力。

以银河通用的具身多模态小脑大模型为例。工作人员在后台下单一样药品、这是意图；而后双臂轮式机器人接收到指令，将其分解为具体的运动步骤。模型会先识别出药品、锁定其在货架上的位置，再伸出右臂吸盘抓取，由左臂两指夹放进篮筐内。

这一系列动作由感知模型和操作模型协同完成，全程无人工参与，当货架上发生药品摆放位置错误、倒放等状态时，机器人会掠过它们，直接抓取后排正确的药品。

Galbot正在捡垃圾（图源：银河通用）

“泛化性本质在于，任意场景、任意物体、任意情形下机器人mobile、pick、place都能成功。”北大-银河通用具身智能联合实验室主任王鹤向36氪指出。

可以看出，面对突发情况时，理想状态下的人形机器人能够结合先前经验学习并复制泛化。

采访中，多位关注人形机器人赛道的投资人普遍认为，“今天人形机器人公司的优势都属于阶段性长板，最终要形成自己的闭环，核心在于各家技术擅长点与想做的场景是否匹配、能否在场景中打通。”

在本体层，人形机器人泛化则体现为下肢形态的选择上。

人形机器人的上肢结构相对稳定，根据移动方式，下肢可大致分为两种，分别是以底盘为重心的轮式以及与人类相似的足式。

轮式机器人主要在平面、结构化道路上运动，如导购机器人、酒店配送机器人等。它的优势在于技术发展成熟，方向盘和轮子两个驱动，就可以完成前进、后退和转弯，底盘比较重、能够支撑机身稳定。

但其局限性也很明显，无法在楼梯、野外、狭窄通道、凹凸不平的地面等非结构化路面行走，对复杂地形的适应能力较差，应用场景有限。

对比之下，人形双足机器人在空间应用的通用性更强，末端控制自由度更高，面对复杂场景时，它可以通过及时调整双腿间重心来保持平衡，执行多种任务。这对机器人的控制能力提出了更高要求。捕捉到环境信息后，机器人的腿要适应不同地形，并能负重。

以野外行走为例，足式机器人需要先感知并理解周围的环境情况，是泥泞的土路还是颠簸的石子路、上下坡的地形等，这些信息往往是动态的。根据现场环境变动，足式机器人会自主规划新线路，并调整行走姿态和控制运动。

但目前，市场上暂时未出现一款真正达到智能水平的人形双足机器人产品，轮式机器人成为不少公司现阶段商业化的首选形态。例如1X的EVE轮式仿真机器人、银河通用的双臂+轮式仿生机器人、达闼机器人的Ginger系列人形服务云端机器人，还有可根据场景选配下肢是轮式或足式的戴盟Sparky 1人形机器人等。

“归根结底，双足人形机器人推动了整个驱动、特别是电机驱动产业的发展。但人类大部分工作场景都是在平面中完成的，例如办公室、工厂、购物中心等。”达闼机器人CEO黄晓庆告诉36氪，“匹配现阶段机器人智能水平的前提下，轮式已经可以覆盖很大一部分应用场景。”

人形机器人的本质是为了通用，在不同场景和任务下，将人类从危险系数大、重复枯燥的工作中释放出来。“我们要做的是尊重能力发展的规律，现阶段人形机器人哪方面能力是ready的，就完成多少工作。”王鹤说。

以银河通用轮式机器人Galbot为例。Galbot采用人形上肢加轮式的形态，由于轮式机器人无法实现下蹲、伸高等垂直空间移动，银河通用提出了可伸缩躯干，蹲下手臂可以摸到地面，完全站立可以摸高达2.4米，并向橱柜等内部结构伸入抓取，除特殊狭窄通道外，基本可以达到跟人类相同的活动和操作空间。

Galbot将机械臂伸入橱柜内（图源：银河通用）

可以看到，具身智能从大脑层面增强了机器人对任务的理解能力、并进行逻辑推理，将人形机器人推向一个新台阶。而硬件本体层面，双足和轮式结构技术也逐渐成熟。软硬件两方面革新终让多场景泛化成为可能。

但人形机器人终究要从Demo视频跨入真实场景。目前最紧迫的难题便是如何从实验室走向规模化。

硬件成本高、数据采集难

作为集AI技术、软件算法、运动控制、硬件结构等为一体的移动终端，人形机器人是目前公认的难度系数最高的产品。

与工业机器人和服务机器人相比，人形机器人的结构更复杂。比如，常见工业机器人的关节数量一般为2-10个，而人形机器人多超过40个，有近5000多个零部件，系统工程量极大，在硬件搭配、控制算法及核心零部件选择上都有差异。

当前，要让人形机器人真正走进场景得以应用，首先需要跨过这些硬件的成本大山。比如特斯拉擎天柱，仅丝杠关节的总价就高达16万元。

人形机器人核心零部件中，技术难度最高分别是减速器、伺服系统和控制器，占成本比例的60-70%。

当前关节所用的伺服电机主要从海外进口，安川、松下、三菱等日系厂商占据国内近50%市场，价格昂贵。

减速器方面，常见的方案分为行星减速器、谐波减速器，二者在结构、工作原理、应用领域以及优缺点上存在显著的区别。

其中，行星减速器的承载能力强、效率更高、成本低，力矩透明度较大，单级传动减速比小，多用于对精度要求相对不高的运动结构。

而谐波减速器的优势在于，它的体积较小、重量轻、传动精度更高，单级传动比大，但缺点是随着使用时间增长，柔轮易发生疲劳破坏，承载能力和使用寿命相比行星减速器较低，成本相对较高。

目前工业界还没有一个得到公认的减速器方案，“根据减速器性能和产品需求不同，考虑成本的选行星、做轻量化的选谐波，各家做各家的。”黄晓庆告诉36氪。

其他硬件方面，人形机器人所用到的控制器、传感器、电池系统等，和工业机器人和新能源车等领域有较大的重复性。通过复用部分传统制造业的供应链资源，国产硬件供应商具备很强的低成本、大规模量产能力，可有效降低人形机器人的整机成本。

除伺服电机等零部件外，当前人形机器人大型关节的国产化率为90%，小型关节国产化率更是达到95%以上。人形机器人成本开始有下探的迹象。

5月13日，宇树科技Unitree G1人形智能体在京东上架，售价9.9万元起，比特斯拉擎天柱喊出低于2万美元（折合人民币约14.5万）的价格便宜4.6万元，率先在人形机器人领域打响了价格战。

“基于过去在四足狗产品的经验，宇树的供应链能力上去了，在成本控制方面做得很好。Unitree G1人形智能体9.9万元的售价，也证明了其规模化生产的能力，对其他人形机器人企业来说是件好事。”某关注AI+机器人赛道的FA高宇说到。

即便如此，宇树人形机器人还没能满足市场对价格的预期。据36氪了解，对比传统工业机器人一体化关节，由于人形机器人尚处在产品化早期，因此，大部分下游客户对成本非常敏感。

钛虎机器人联合创始人易港告诉36氪，“工业领域的客户对可承受的价格阈值更高，哪怕售价5000元、也有愿意付费的客户。但人形机器人客户大多只能接受1000-2000元的价格。”

人形机器人仍陷在客户不买账、量产难进而边际成本无法降低的矛盾中。

硬件行业的爆发最初会依靠一些资金雄厚的冒险者开局，但行业迈向商业化最终只能依靠规模量产后不断降低边际成本。

“要能把研发、开模以及其他加工费用摊薄，目前很多厂家愿意前期低价合作，做定制化开发。但要正儿八经有产线，得有一两家本体公司跑出来量后才有可能。” 柯真东表示。

当然，这是新行业启动时必然跋涉的路径。产业不断成熟，政府政策支持，大量社会资本与各种产业基金爆发性投入，会加速国内具有竞争优势的供应链形成。北航机器人研究所名誉所长、中关村智友研究院院长王田苗预测，人形机器人未来成本将下降至少50%。

根据《2024年中国人形机器人行业研究报告》，人形机器人按量产规模不同，降本大致可划分为三个阶段：小批量千台量级生产，降本20%-30%至约10万美元；万台级别降本50%至5万美元；数十万至百万台大规模量产，降本70%-80%至2-3万美元。

优必选副总裁、研究院执行院长焦继超告诉36氪，目前，优必选真人尺寸工业版人形机器人Walker S的成本大约为4-5万美元。

Walker S在蔚来车间（图源：优必选）

另一方面，训练数据采集的难度，是横亘在人形机器人规模化落地面前的第二座大山。

今年4月，特斯拉推出多模态大模型Grok-1.5v，利用端到端高速大模型FSD（Full-Self Driving，完全自动驾驶）推理，将足够多的用户数据清理干净后喂给模型，以解决自动驾驶边缘案例的在线迭代学习问题。

特斯拉擎天柱能在有限简单场景下进行自主作业，其核心依靠数据驱动：采集海量的优质数据，覆盖各类场景和物体，并通过具身智能提炼泛化能力。

目前，人形机器人公司对数据的需求可以分为三类。

第一，通过数据理解世界规律。例如，空间内存在桌子和杯子两个分离物体，把杯子从桌上拿走，可以转移放到另一张桌子上、也可能掉落摔碎。通过大量数据学习，让机器人理解任务意图。

第二，借助模拟数据学习逻辑推理和决策能力。机器人完成一项任务是由系列动作构成的。让机器人从货架上取一瓶牛奶，从什么角度去抓，纸壳包装和易拉罐装的力度等，过去并没有数据集可学习，但借助模拟环境，可以让机器人掌握各种抓取方法。

第三，真实场景的应用数据。比如让机器人将给iPhone手机充电，首先需要辨识手机充电口和各类数据线插头，经Sim-to-real transfer（模拟环境向真实世界迁移）掌握方法后，再通过Tele-operation（遥操作）方法完成。

三类数据侧重点不同会影响人形机器人的精度和成功率。例如谷歌和特斯拉的方案，均采用真实世界数据采集为主、持续优化Tele-operation。特斯拉的VR Tele-operation系统，可以第一视角操控人形机器人，看其所看、动起所动，当人的手臂摆动时，机器人也会跟着运动。这套系统被特斯拉应用在其碱电池工厂中。

“人形机器人最终落地是多种形态的，要提前做产业化布局，就意味着它需要提前进入场景迭代，获取数据、再不断地迭代，去适配场景的真实需求。”星动纪元联合创始人席悦向36氪如是说。

真实数据的增加有利于机器人提高智能水平。但要跨越鸿沟，真实数据需要提高多样性和质量，并非单纯数量堆砌。

举个例子，碱电池工厂的电池是固定的、外包装使用固定的盒子，在物体位置和环境相对固定的情况下，训练所得的数据与Imitation Learning（模仿学习）没太大差异，机器人的智能也并没有得到拓展和增加。

“在机器人领域，我们面临着海量未标注的异构行为大数据，这使得语义与数据的精准对齐变得异常困难，其中涉及语义歧义问题、模型幻觉的安全问题，以及标准化测试平台和使用安全的评价问题等。”王田苗在采访中向36氪指出。

优必选使用的训练数据中，由Tele-operation所收集的真实数据占20%，比如工具使用、工厂中的零件分拣等；像桌椅板凳、地面墙面、人类和环境等通用目标识别，则是基于其他类型机器人积累的数据，可直接用在人形机器人训练。此外还有80%的数据通过仿真环境合成获得。

由于真实数据稀缺，采集难度大、成本高，仿真合成数据被许多人形机器人企业视为解决数据问题的最优选。

以达闼机器人的数字孪生方案为例。公司搭建了一套实时同步、虚实转换的数据收集系统，通过传感器，可以将人所在环境扫描并传输到云端，以30Hz/秒进行重建，将机器人放置在孪生环境中进行训练。简而言之，就是将机器人看作一个NPC，各项任务是一个个游戏，用AI驱动人形机器人在“游戏”中运行。

基于RobotGPT多模态大模型（图源：达闼机器人）

“这时候，我们要多少合成数据就有多少，需要什么场景、也可以通过数字孪生的方式随时搭建。当数据在时间轴上被拉长、以切片形式存在，突发问题也变成了静止问题。”黄晓庆说。

然而，合成数据的劣势在于，它与真实数据之间存在数据分布的差异，实时性不强，在落地时，会面临更高要求的精度问题。

对此王鹤表示，“这件事的解决有先例。宇树四足狗的运动、跑跳，以及双足行走，都是通过大规模仿真强化学习实现的。这就说明Sim2Real（从模拟到真实）虽然有gap，但是可以做得很work的。”

对于一个真正称得上智能的人形机器人，这三种数据没有优劣之分。但 “目前市场上，能够在同一个阶段把几类数据都同步做好的公司几乎没有，普遍做法是根据自身的技术优势，优先从擅长方向切入。”光源资本董事总经理娄洋告诉36氪。

当前，人形机器人距离里程碑式的跨越还很遥远。只是，如今的资本并没有技术界的耐心。他们要看到可预见的商业化路径，没人会为脆弱的愿景买单。

机器人表演群舞“千手观音”（图源：达闼机器人）

商业化倒计时

今年4月，亚马逊的媒体活动日上，Agility Robotics分享了人形机器人Digit在亚马逊仓库的工作画面。

这次“员工试用期”始于2023年10月，经过三个多月实践，Digit已经可以连续工作7.5个小时，效率为人类速度的75%，任务成功率达到97%。

亚马逊仓库内有75万台物流机器人，在这之后，公司正考虑测试Digit人形机器人的物流托盘。按照人工作业5至8个小时、20-30元/小时，机器人连续工作5年即可回本。

根据高盛测算，预计2025年，少批量资金雄厚的人形机器人公司有望进入商业化试点，到2035年其替代率或从5%提高10%至15%，出货量翻4倍、将达到140万台。

人形机器人展现出了庞大的市场需求。但如上所述，现阶段行业存在技术、成本等问题，部分国内企业仍处于产品测试阶段，商业化进程还在早期。

当中的核心锚点，是公司能否找到擅长的应用场景。

在所有人形机器人企业中，大家都会谈到的问题是——找到PMF。 Product market fit（产品-市场匹配），就是产品要能够解决真实的需求，其中产品所创造的价值往往比产品售价本身还要贵。

可以看到，当前国内外人形机器人已进入汽车生产车间、物流仓储间，可以完成一些基础性的工作。在席悦看来，随着机器人运动机能进一步提升，落地场景将会从车间的单一的基础劳动过度到复杂的柔性任务，逐步向服务业迈进，最终走进千家万户。

王田苗认为，人形机器人的落地会先从商务场景切入，然后进入工业场景，最后再到消费场景。而“产品化过程需要时间来产生并验证价值，因此，基于场景的融合打磨与迭代变得至关重要。”

“当面对具体场景时，我们要解决的问题就变成了‘如何提高机器人的鲁棒性’（即在异常和危险情况下、保持机器的稳定运行），让人形机器人的适应性和部署效率，能够在真实应用环境中切实落地。”焦继超表示。

目前公司们主要朝三个方向掘金：

第一种是以教育科研、开发者用户为主，用于做人形机器人技术研究、产品二次开发以及开设教育课程、比赛等；这部分订单在早期可以为企业带来较为稳定的收入，保持造血能力。

第二种是B端客户，面向典型制造业、物流仓储业、商区服务业；这批客户当下的需求是以前期案例示范应用为主，目的是为未来批量引入人形机器人做准备。

第三种，也是所有人形机器人企业的终极目标，面向C端客户，真正实现机器人走进千家万户，为每个家庭服务。

娄洋指出，以具身智能为核心的新一代人形机器人公司中， “大家当前在场景侧的选取和市场端的切入上尚未达成共识。有些探索进度快，有些相对较慢，但进度更快的公司所选取的路径，并不一定代表着该场景的最优解。目前场景落地的可行性和优劣与否还没有明确答案。”

以工业场景为例，就存在落地成本不确定，以及数据训练和实际应用转化之间的错配问题。工厂对机器人的要求通常以精准成本为导向，期待机器人能够每天完成固定的任务，确保生产的稳定性。然而，人形机器人的智能水平提升需要更强的泛化性和应变能力。与生活场景相比，工业环境能提供给机器人的反馈和学习机会相对受限。

夸父机器人正在炒菜（图源：乐聚机器人）

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍从资本视角来看，找到适配的场景以验证技术的有效性已十分迫切。 “尤其是对于那些估值普遍超过20亿人民币的第一梯队公司。”娄洋说。

这些公司的机器人，首先要在一个特定场景中做到跟人一样好，甚至比人做得好，包括承担更危险的工作、实现更高的精度、解决招人难题，或是用于成本更低的自动化任务等。在单一场景验证后，公司再考虑向更广泛的应用场景进行技术泛化。

眼下各家在融资上仍有窗口期，绝对差距暂未被拉开。多位投资人告诉36氪，对人形机器人公司来说，接下来比拼的焦点是差异化， Demo视频大家都有、场景实际表现才是见真章。

市场上的钱毕竟有限。头部企业能聚拢到更多的资源，拥有更多试错的可能，包括提高人才密度、买好的技术团队、提升产线等。对尚未找到清晰落地场景的新团队来说，融资的大门正在关闭。

过去10年，AI给太多行业带来过希望和失望。具身智能的概念足够性感，但还没有清晰的轮廓。甚至目前人们期待的机器人未必就是长得最像人、最智能的形态。

“机器人是人形的也好、其他形态的也好，在我们看来，希望它短期内替代人类做些复杂、危险的工作，让人们活的更轻松点；长期来看，更智能的人形机器人还可以为我们提供情感价值。这是场景落地真正的价值所在。”焦继超表示。

具身智能带来了一场颠覆式的生产力变革，但从进入产业到终极生活场景的落地，行业需要时间。在这些新的技术路径、硬件设计、供应链搭建、市场需求驱动的共同作用下，我们要做的事情还有很多。

头条号入驻

36氪 36氪（36Kr.com）是中国领先的科技新媒体，报道最新的互联网科技新闻以及最有潜力的互联网创业企业。

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

大模型冲击人形机器人赛道后，一个万亿美金的新故事丨36氪新风向

头条号入驻

造出比盘子还大的AI芯片，这家估值300亿元的硅谷公司要挑战英伟达

万物互联时代的先锋力量，创造「鸿蒙速度」

卖盒饭，中国咖啡店的出路？

财经自媒体联盟更多自媒体作者

热文排行榜