NVIDIA引领“通用机器人的ChatGPT时刻”,机器人将迈入量产阶段

NVIDIA引领“通用机器人的ChatGPT时刻”,机器人将迈入量产阶段
2025年01月23日 15:41 科技行者

作者| 金旺

栏目| 机器人新纪元

当14台人形机器人在NVIDIA CES 2025发布会上缓缓升起时,NVIDIA创始人黄仁勋称,“通用机器人的ChatGPT时刻即将到来。”

这是CES 2025的一个高光时刻,也注定将会是全球机器人产业发展的一个历史时刻。

作为如今全球算力供应商,NVIDIA的机器人版图这些年也在徐徐展开。

尤其是在这波由生成式AI推动的人形机器人浪潮下,在数据和模型成为驱动机器人商业落地的关键时,NVIDIA构建了一套完整的Isaac GR00T Blueprint,为通用机器人的训练提供了一个数字孪生训练场。

在这个数字孪生训练场中,藏着的是NVIDIA的三台计算机和一套工作流,以及黄仁勋看到的“通用机器人的ChatGPT时刻”。

01 破解人形机器人的数据难题

2021年8月,在特斯拉第一届人工智能日上,当特斯拉创始人马斯克用“皮套人”伪装的人形机器人登上舞台的那一刻,机器人产业迎来了一个全新的开端,尤其是人形机器人,进入到了一个资本红利期。

与此同时,随着2022年11月ChatGPT的面世,以生成式AI为代表的人工智能技术浪潮的来临,为机器人产业再添一把火,具身智能涌现,机器人产业随之也迎来了一个技术红利期。

在过去两年里,仅仅是在国内,就涌入了数十家人形机器人初创团队,而在这波由人工智能、具身智能催生的人形机器人热潮中,数据成了机器人进化的一大难题。

以全球瞩目的ChatGPT为例,其背后的大模型早在2022年6月迭代到GPT-3时,参数规模就已经达到1750亿,而据中国信通院分析数据显示,大模型的知识密度还在以平均每8个月翻一番的速度增强。

正因如此,才有了GPT系列大模型展现出的越来越超乎想象的知识问答、图文生成能力。

相较于基于海量互联网数据训练出的图文大模型,具身大模型可用的数据量,尤其是聚焦到机器人领域,就显得有些捉襟见肘,以至于不少机器人企业内部都组建了数据采集部门,通过遥操作方式为机器人采集来自真实世界中的数据。

例如,谷歌DeepMind团队与斯坦福团队在2024年1月共同推出的Mobile ALOHA,就是一套基于遥操作模式进行数据采集的低成本开源机器人。

与此同时,特斯拉2024年在大量招聘机器人“数据采集员”,这些“数据采集员”通过穿戴动捕设备和VR设备来为Optimus采集数据,国内智元机器人也于2024年在上海临港区投建了数据采集超级工厂,而出自这一工厂的机器人百万真机数据集AgiBot World在2024年年底由智元机器人对外开源。

不过,由人类“数据采集员”从真实世界中采集数据,这一模式往往费时又费力。

在近日的NVIDIA媒体研讨会上,银河通用创始人兼CTO王鹤将机器人与汽车作对比指出,“对于用户而言,开车是刚需,将车卖给用户后,用户会自愿驾驶汽车,这些汽车厂商数据采集的成本可以是负数,但是对于人形机器人而言,如果没有功能,就没人愿意购买,更没人愿意遥操作机器人采集数据,人形机器人公司在这方面只能冷启动。”

谷歌曾经就组建过一支16人的机器人研究团队,这支团队在谷歌山景城办公室的3个厨房中,用13个机器人,花了17个月的时间,采集到了13万条来自真实世界的数据,为了采集这些数据,谷歌花费了上千万美元。

那么,是否还有其它更高效率、更低成本的方法,可以破解人形机器人的数据难题?

NVIDIA给出的答案是,通过仿真环境提供合成数据。

仿真并不是什么新概念,在芯片设计领域,芯片在制造之前都需要进行仿真,以确保最终制造出的芯片功能完美无缺。

NVIDIA机器人与边缘计算副总裁Deepu Talla指出,“由于仿真技术的精度不足,导致仿真技术过往这些年里并没有在机器人领域得到很好的应用,Omniverse的出现,缩小了仿真与真实世界之间的差距。”

Omniverse是NVIDIA专为虚拟协作和物理级准确实时模拟打造的开放式3D仿真平台,这一平台在2021年发布后,就因高精度真实世界仿真能力被《时代》周刊评选为2021年最佳发明之一。

而就在刚刚过去的CES 2025上,继在GTC 2024上发布Project GR00T人形机器人基础模型后,NVIDIA创始人黄仁勋再次对外发布了世界基础模型Cosmos。

据Deepu Talla介绍,“NVIDIA Cosmos是一个‘世界基础模型’,可以生成高度逼真、类似视频游戏的环境,用于机器人训练,通过将少量的现实世界数据与使用像NVIDIA Cosmos这样的工具生成的大规模合成数据相结合,我们可以克服机器人技术中数据稀缺的问题。”

不过,在CES 2025上,黄仁勋面向机器人领域对外发布的,不仅仅有世界基础模型Cosmos,还有面向机器人研发的一套完整的工作流。

02 “三台计算机”和“一套工作流”

2012年,是ImageNet挑战赛举办的第三年,这一年,多伦多大学教授Geoffrey Hinton带着他的两位学生Alex Krizhevsky和Ilya Sutskever参加了这场比赛,并凭借AlexNet模型一举拿下了这届大赛的冠军。

计算机图像识别是人工智能领域一个重要分支,AlexNet模型之所以能在这届大赛中拿下冠军,是因为它以当时大家都不看好的卷积神经网络结构为基础,独辟蹊径地摒弃了逐层无监督方法,通过有监督学习方法大大提升了图像识别的准确率。

在2012年的ImageNet挑战赛中,AlexNet模型图像识别准确率达到了惊人的84%。

当然,AlexNet模型还有另一个独特之处,那就是摒弃了当时主流的通用处理器,换上了两个更适合深度学习模型训练场景的NVIDIA GTX 580,尽管当时的GTX 580主流应用场景依然是电子游戏。

这一年之后,卷积神经网络在学术界重回主流视野,以深度学习为代表的人工智能技术开始成为全球科技领域的焦点。

NVIDIA是在2016年的GTC大会上,正式对外发布了首款针对深度学习场景的GPU,DGX-1,也是在这一年,NVIDIA首次将GTC大会带到了中国,黄仁勋在发布会现场宣布,“我们不再是一个半导体公司,而是一个人工智能计算公司。”

值得注意的是,NVIDIA的第一台DGX-1 AI超级计算机,是由黄仁勋捐赠给了当时刚刚成立不久的OpenAI。

鲜为人知的是,OpenAI成立之初内部就有设立机器人研发团队,OpenAI CEO Sam Altman相信人形机器人是通用人工智能的未来,也希望通过机器人推动通用人工智能技术落地。

实际上,DGX后来也成了NVIDIA进军机器人领域的第一台计算机。

1月7日,CES 2025的开幕主题演讲中,机器人成了NVIDIA重点关注领域之一,为此,黄仁勋还在演讲中正式发布了面向包括人形机器人在内的物理AI领域打造的三台计算机。

人形机器人在开发过程中,由于涉及包括AI模型训练、机器人运动仿真在内的大量计算,为此,NVIDIA面向物理AI和机器人训练、仿真、运行构建了三台计算机,这三台计算机分别为:

用于AI模型训练的超级计算机NVIDIA NeMo、用于软件开发和仿真测试运行在NVIDIA OVX服务器上的Omniverse和Isaac Sim,以及用于机器人本地部署的机器人专用计算平台Jetson Thor。

这其中,NVIDIA针对具有智能大脑的计算平台的布局可以追溯至10年前。

2014年,NVIDIA面向嵌入式场景推出了Jetson TK1,自那时起,Jetson系列计算平台开始成为机器人端侧算力的重要支撑。

2018年又推出了Jetson Xavier,2022年推出的Jetson Orin性能更是较上一代Xavier提升了10倍。

而即将推出的Jetson Thor是为满足人形机器人对算力的巨大需求而设计,可以说是目前最强嵌入式AI计算平台。

Isaac Sim则是NVIDIA在2019年对外发布的,基于Omniverse的仿真平台,用于在物理的虚拟环境中仿真和测试AI驱动的机器人。

在今年的CES上,针对机器人的合成运动生成,NVIDIA再次发布了一个名为NVIDIA Isaac GR00T Blueprint的仿真工作流,基于此,机器人可以从少量人类示范中生成大量合成运动数据集,极大降低了在真实世界中收集广泛、高质量数据的难度和成本。

这套工作流共分为四步:

第一步,GR00T-Teleop借助Apple Vision Pro在数字孪生环境中捕捉人类动作,这些人类动作被记录下来作为金标准,并在仿真环境中由机器人模仿学习;

第二步,GR00T-Mimic将捕捉到的人类示范动作扩展为更大的合成运动数据集;

第三步,基于Omniverse和Cosmos平台构建的GR00T-Gen通过域随机化和3D提升技术,指数级扩增这个数据集;

第四步,扩增后的数据集作为机器人策略的输入,在Isaac Lab中教会机器人如何在其环境中高效且安全地移动和互动。

作为国内人形机器人领域明星企业银河通用的创始人,王鹤同样相信合成数据是推动人形机器人智能发展的关键,他们也是最早基于NVIDIA Isaac Sim和Omniverse和成机器人操作数据,并研发出了机器人VLA模型的团队。

据王鹤透露,“银河通用已经训练出了全球第一个10亿级参数规模的端到端具身抓取基础大模型GraspVLA,基于这一模型的机器人具备泛化抓取能力,即使面对一些特殊零件抓取任务,只需要采集100条数据并掌握零件名称后,就能实现对这一零件的泛化抓取。”

不过,对于NVIDIA而言,通过这样三台计算机和一套工作流并不是为了制造人形机器人,Deepu Talla解释称,“我们的目标是打造一个平台,让每个人都能创建自己的机器人。”

03 通用机器人的ChatGPT时刻

据《中国人形机器人创新发展报告 2025》统计数据显示,2024年中国人形机器人整机企业有79家,市场规模约为27.6亿元,预计2025年将翻倍至53亿元,2029年有望达750亿元。

市场规模阶跃式增长,是人形机器人产业热潮的真实写照。

为什么我们需要机器人,尤其是人形机器人?

Deepu Talla认为,现在至少有三个原因正在让机器人变得不可或缺:

第一,危险工作,例如矿工或其它在危险环境中工作的人员,机器人可以替代人类承担这些危险任务;

第二,劳动力短缺,人口短缺已经成为一个全球趋势,未来将会由机器人弥补因人口短缺带来的劳动力不足的问题;

第三,养老需求,人口老龄化是如今另一个社会问题,尤其是伴随着人类寿命越来越长,我们未来将需要一个机器人来帮助解决老年人护理和陪伴问题。

然而,作为全球科技领域终极难题,人形机器人一直难以在养老看护、社会服务,以及更多商用场景中得到落地。

以生成式AI、大模型为代表的人工智能技术的突破和迅猛发展,让机器人运动控制能力有了泛化的可能,也让我们看到了人形机器人在现实场景落地的可能。

于是,在GTC 2024上,黄仁勋将来自全球不同国家的9款明星人形机器人请到了舞台上,让全世界看到了人形机器人正在加速照进现实,彼时一并发布的,还有NVIDIA首个人形机器人通用基础模型 Project GR00T。

而在过去一年里,我们看到,国内包括宇树、傅利叶、银河通用、智元机器人在内的多家团队的机器人进入工业、零售等场景中,开始测试人形机器人的实际应用能力。

然而,在人形机器人进入真实场景后,由于训练数据不足,数据越发成为机器人突破的瓶颈,NVIDIA Isaac GR00T Blueprint的发布,从根本上解决了这一问题。

正是在解决了这一问题后,在CES 2025上,当再次将来自全球不同国家的14款人形机器人请到舞台上时,黄仁勋给出了他的断言,“通用机器人的ChatGPT时刻即将到来。”

也是在这时,特斯拉官宣将在2025年量产数千台人形机器人,国内多家明星企业更是早在2024年相继对外公布了人形机器人量产计划。

2025年,我们迎来了人形机器人第一个量产之年,也将迎来通用机器人的ChatGPT时刻。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部