导读
现代人形机器人起步于1960年代后期,从早稻田大学1972年研发的WABOT,到特斯拉2022年首秀的Optimus的半个世纪里,人形机器人的发展已经从本田ASIMO、波士顿动力Atlas为代表的技术验证期,过渡到以特斯拉Optimus为代表的商业试水期,再到1X Technologies NEO试图开启AI具身智能革命,一个新的人形机器人时代正在开启。
我们发现,尽管人形机器人脱胎于工业机器人而来,但现实却是高科技企业(尤其是在AI领域有较高建树)有后发优势。
我们更好奇,为什么说人形机器人是属于明天的产业?为什么人形机器人的iPhone时刻还远未到来?类似谷歌Deepmind的多模态模型RT-2能否带来人形机器人的智能涌现?
本期前沿观察,我们试图从以下三个问题展开——
1.如何理解人形机器人是属于明天的产业?2.为什么人形机器人的iPhone时刻还远未到来?3.RobotGPT能否带来人形机器人的智能涌现?
撰文:王嫄
正文5028字
阅读时间约:8-9分钟
01人形机器人与“具身智能”,注入灵魂的一次求索
人形机器人又称仿人机器人,不同于传统的工业机器人和服务机器人受困于极度细分的应用场景与标准化工业制造业的弱智能水平,人形机器人能够直接接入人类现有生活,进入所有的空间场景,与物理世界互动的隐性成本最小。
更重要的是,随着人形机器人被植入“视觉-语言-行动”多模态模型,其成为“具身智能(Embodied Intelligence)”的最佳载体并赋能人工智能,都将不再遥远。因此,人形机器人更有望打破厂用-商用-家用的藩篱,成为继手机、汽车后最自然的商业入口。
作为机器人产业里的集大成者,人形机器人是集机、电、材料、计算机、传感器、控制技术等多门学科于一体的产业,是一国高科技实力与发展水平的重要标志。全球发达经济体都不惜投入巨资进行开发研究。
美、日、韩、英等国都在研制仿人形机器人方面做了大量的工作,并已取得突破性的进展👇
(1)波士顿动力 Atlas
波士顿动力目前最先进的机器人Atlas是具备最强动态性能的跑酷机器人。Atlas有28个关节,身高1.5米,体重80kg,速度1.5m/s,最大负荷10kg,主要应用场景涉及科研、勘探和救援。从2016年亮相至今,Atlas从一开始的动作不连贯,摇摇晃晃的姿态变身为在模拟工地上抬木板、三级跳、扔工具包,甚至是高难度体操都不在话下的人形机器人。
Via波士顿动力
Atlas卓越的运动能力不仅得益于优越的物理机动性,还因其高级的控制系统和算法。硬件层面,Atlas依靠28个液压执行器实现一系列高难度运动,独特的液压伺服驱动不仅保障了敏捷动作的完成,也具备高负载性的优越功能。其足部踝关节由两个直线执行器并联驱动,髋关节和手臂多是伺服摆动缸。本体搭载3台NUC/工控机负责整体控制系统的运算。
轻松完成扔工具包 Via波士顿动力
软件层面,离线轨迹库+在线精细控制的 MPC 控制器是Atlas的控制核心。特别是,在感知层面,Atlas使用TOF深度相机每秒生成15帧的环境点云,叠加“预设地图”全面保障实时感知。(2)特斯拉 Optimus
今年5月,Optimus已经能够完成了一系列复杂任务如电机扭矩控制,更精确的力度控制、环境探测与记忆等。此外,AI能力持续提升——Optimus已能够基于端到端AI 学习人类行为的过程对物体进行分类摆放。在 Dojo 超算的支持下
Optimus利用动作捕捉对人类活动方式进行学习,实现了抓取力道控制精细,甚至不会打碎鸡蛋。
新版Optimus实现了50个自由度,9kg的最大负荷。其手部的高自由度得益于金属肌腱带动机器人精确抓住小而薄的物体。复用FSD自动驾驶与Dojo超算能力使得Optimus的AI水平在人形机器人中较为突出。Optimus预计将在2024年开始测试实际工作。
(3)本田 ASIMO
从1986年开始,日本本田公司开始研发人形机器人,相继推出双足机器人E系列、仿真机器人P系列等。2005年,本田公司发布了最新一代ASIMO机器人,全身共57个关节,身高1.3米,体重48kg,最大速度9km/h,能实现小跑、单脚跳、倒退走,上下楼梯以及踢足球等系列复杂运动,主要应用场景涉及接待、娱乐、演出等。
得益于手部加入的传感器,ASIMO能轻松完成打开瓶子并倒出液体等动作。可以说,它在当时的知名度与如今的波士顿动力机器人Atlas不相上下。某种程度上代表了日本人形机器人的最高水平,是机器人历史上重要的里程碑之一。由于ASIMO开发成本昂贵(造价高达300-400万美元)一直无法商业落地。加之其电机控制方案也断绝了ASIMO军事化路线可能,因此在2022年3月底,本田公司选择让ASIMO退役。今后,本田将致力于研发具备看护、护理等功能更为实用的机器人。
(4)小米 CyberOne
Via小米
小米的人形机器人CyberOne(铁大)身高1.77米,体重52kg,最大负荷1.5kg,主要应用场景为家庭陪伴和教育辅助,强大的情感感知力是其特点。
升级后的运动控制算法支配全身13个关节和21个自由度,实现双足运动姿态平衡。电机性能增强10倍,髋关节主要电机的动力扭矩峰值可达到300Nm,峰值扭矩密度 96Nm/kg。
表1 人形机器人主流参与者对比👇
全球人形机器人千亿市场容量或指日可待
据Markets and Markets预计,到2027年,全球人形机器人市场规模可达173亿美元(约合人民币1200亿元),复合增长率63.5%,市场发展广阔。此外,2022年全球机器人市场规模就已经达到了513亿元的高点,2017-2022的年均复合增长率达14%。其中,工业机器人市场规模195亿美元,服务机器人和特种机器人市场规模分别超过200亿美元和100亿美元(via IFR)。
埃隆·马斯克也乐观预计,未来人形机器人的需求或将会远超汽车需求。未来10年,特斯拉人形机规划500万台产能,按量产后的2.5万美元单价计算,未来3-5年市场空间超百亿美元,十年后将超千亿美元。
02 为什么人形机器人的iPhone时刻还远未到来?
造血难、研发高、企业亏损严重,“AI大脑”亟待进化...
一言以蔽之,人形机器人是软硬件能力高集成的实体,商业化的核心突破点在于“AI 大脑”。可以说,当前的AI大脑在逻辑思维和行为智慧决策层面还需要一段成长空间,其背后驱力很大程度上来自于「算法的升级与高水平的智能化」。
从当前“弱人工智能”走向“强人工智能”的道路上,「具身智能」发挥着举足轻重的作用。作为一种新型的人工智能,具身智能是指一种智能系统或机器能够通过感知和交互与环境(物理世界)产生实时互动的能力。显然,当下的人形机器人距离这一状态还有非常巨大的差距。
具身智能包括三个模块:具身(Perception)、具身想象(Imagination)和具身执行(Execution),AI+机器人正是“具身智能”当前的落点。工业机器人主要根据控制系统发出的指令信号控制机器人主体完成任务,主要依赖于机器人的执行层。与工业机器人不同,具身智能机器人若能像人一样与环境交互、感知、决策、完成任务,将不得不提升感知层和认知层的能力。
——上海交通大学教授卢策吾在机器之心AI科技年会上发表的主题演讲《具身智能》(2023年1月)
图解“具身智能”(via上海交通大学教授 卢策吾)
想要实现具身智能绝非易事。人形机器人传感器数量、品类、执行机构复杂程度远高于工业机器人,对控制器实时算力、集成度要求极高。
尽管当前的人形机器人集成了大量不同的传感器,如:视觉、听觉、位置、柔性传感器等,这些传感器能够让机器人通过“五官”接近人类,收集并感知外界信息。但是,在接下来的“分解、规划任务、运动中识别物体、完成高质量的实时交互,最后完成具体任务”一整套作业过程中,更需要把人形机器人的核心软硬件有机整合,协同好各部分的速度、力度、准确性,以各司其职完成任务,其难度是巨大的。同时,传感器精度和可靠性的不断提高,也是当前亟待解决的难题之一。
以特斯拉Optimus为例,其原型机的配置参数和预期设计参数有较大的出入:原型机动力系统部分有28个结构执行器(与原有的40个相比下降12个,从而降低了规模化量产成本),50个基础自由度,全身能够产生200个以上不同角度的动作。灵巧手单手有6个执行器,11个自由度,采用金属肌腱带动机器人能够精确抓住小而薄的物体。AI系统层面,Optimus复用特斯拉汽车的感知和计算能力,在全自动驾驶FSD芯片基础上开发适合人形机器人的控制器系统。
居高不下的制造成本,让人形机器人难以走出实验室
人形机器人的四大核心硬件分别是:伺服系统、减速器、传感器、控制器;四大核心软件:机器视觉、机器学习、人机交互、系统控制。其中,减速器、伺服系统和控制器直接决定了机器的性能、可靠性以及负荷能力,且这三大核心零部件(成本占比高达70%)由少数制造巨头把持,对于行业的议价能力是一个巨大的挑战。如果行业需求不多,便无法低价采购,则难以降低成本起量,而不起量又难以低价采购。
当然,国产供应链在减速器、电机、传感器、滚柱丝杠等环节都积累了丰富的生产经验,引进国产供应链有望进一步降低核心零部件的价格。同时,尽管中国机器人产业链齐全、应用规模广泛,但是就技术层面而言,国内市场上的人形机器人还停留在新品对外发布阶段,尚未实现大规模量产和商业落地,并且企业自身亏损严重。
总的来说,目前人形机器人在商业化落地层面直面以下挑战:企业研发高亏损严重、算力需求巨大、基础技术能力薄弱、市场需求少(产品力弱)、AI能力亟待提升,以及机器人数据安全体系缺位。
展望未来,人形机器人将重新定义人工智能时代的工人。商用服务场景将是人形机器人最快应用的市场,而家庭落地场景或许是人形机器人最具潜力的应用市场。
03 RobotGPT 能否带来人形机器人的智能涌现?
我们好奇,类似谷歌Deepmind的多模态模型 RT-2能否带来人形机器人的智能涌现?
RobotGPT的原理可理解为由ChatGPT的文字-文字接龙,变成文字/语言/各类传感器接收的信号-动作接龙。同时,根据《RobotGPT: From ChatGPT to Robot Intelligence》,人类的八大智能包括:语言、数学逻辑、空间、人际、内省、音乐、身体运动、以及自然认知智能。人形机器人实现不同的智能需要配备不同传感器、自然语言处理能力以及人工智能算法。GPT 模型的自然语言处理已经汇聚了自回归变换器+下一个词预测+强化学习高级特征的“配方”,而这一思路尚未在人形机器人中应用。
谷歌Deepmind已在测试多模态模型 RT-2控制机器人,内嵌120亿参数 PaLM-E模型以及550亿参数PaLI-X模型的 RT-2 在陌生任务中的平均准确率相比RT-1实现了翻倍。
此外,根据财联社报道,OpenAI今年投资了1X,有望将GPT-4及更先进的多模态模型植入人形机器人NEO,不仅带来机器人的智能涌现,同时也带来「AI 的第一人称学习能力涌现」。
明日迫近
当前,以人形机器人和通用人工智能为代表的新技术、新产品、新业态蓬勃发展,正成为全球科技创新的制高点。倘若行业能打造出“RobotGPT”的基座模型,实现少量样本甚至是零样本的学习,那无疑将是机器人历史上一次“注入灵魂”的求索,终将结出人形机器人的智能涌现的硕果。
封面来源:《吉格尔与空山基:明日迫近》展览
END
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有