谷歌推出两款新型AI模型,从 "听懂指令" 到 "拿捏现实" 的具身智能革命

谷歌推出两款新型AI模型,从 "听懂指令" 到 "拿捏现实" 的具身智能革命
2025年03月13日 15:25 数据观资讯平台

具身智能

北京时间2025年3 月 12 日,谷歌宣布推出两款基于Gemini 2.0的新型人工智能(AI)模型。

编辑 |  数据君

北京时间2025年3 月 12 日,谷歌宣布推出两款基于Gemini 2.0的新型人工智能(AI)模型,旨在开发更灵活、可互动的机器人,有望推动机器人在更多场景中的应用和普及。据DeepMind机器人部门的高级总监Carolina Parada介绍,Gemini Robotics通过整合Gemini的多模态世界理解能力,并加入物理行动的新模态,成功实现了向现实世界的拓展。

双模型架构:重构机器人“大脑”

  • Gemini Robotics:视觉-语言-行动的“全能选手”,基于谷歌最新旗舰AI模型Gemini 2.0,Gemini Robotics通过融合视觉、语言和物理行动模态,赋予机器人多模态理解能力。其最大亮点在于无需特定训练即可应对新场景,例如从未接触过“扣篮”指令的机器人,能通过理解篮网形态和指令含义,精准完成塑料球入筐动作。此外,该模型在精细操作(如折纸、开瓶盖)和动态互动中表现出色,显著提升了机器人在家庭服务、工业制造等场景的实用性。

  • Gemini Robotics-ER:动态环境的“推理大师”,针对复杂任务设计,该模型专注于空间推理与环境动态分析。例如,在装便当盒时,机器人需综合判断物品摆放位置及操作顺序,Gemini Robotics-ER通过对接低级控制系统,可自主生成高效解决方案。这一能力使其在医疗护理、仓储物流等领域潜力巨大。

在预先录制的演示视频中,谷歌研究人员展示了运行其技术的机器人如何响应简单指令。其中一台机器人站在一堆字母拼图前,在训练员要求它拼出一个单词时,它拼出了“Ace”。

行业震动:从 "定制训练" 到 "零适应" 时代

传统机器人需针对每个场景进行数千小时训练,而 Gemini 系列在综合泛化基准测试中,性能较前代提升 200%。

Gem

ini

Robotics能适应不同形态的机器人。其训练数据主要来源于双臂机器人平台ALOHA 2,但同样能够驾驭基于Franka机械臂的双臂平台等其他机器人形态。对于像Apptronik开发的人形机器人Apollo这样更为复杂的形态,Gemini Robotics也具备良好的适配性。

这种 "无师自通" 的能力,直接戳破行业 "定制化陷阱"—— 某 3C 工厂测试显示,搭载新模型的机械臂,从手机组装切换至海鲜分拣的适应时间,从 72 小时缩短至 45 分钟。

战略重启:谷歌机器人的 "二次觉醒"

此次发布堪称谷歌机器人战略的 "重启宣言"。回溯2013年,谷歌接连收购了Schaft、Industrial Perception、Meka Robotics等8家与机器人有关的公司。2014年1月,谷歌相继收购了人工智能公司DeepMind和智能家居公司Nest。却因商业化困境在 2021 年关闭日常机器人部门。

如今依托 Gemini 大模型的认知能力,谷歌选择 "轻硬件、重大脑" 的路径 —— 新模型不仅适配 Franka 机械臂、Apptronik 人形机器人等多形态设备,更通过 "可信测试者计划" 向行业开放,与 Agile Robots 等企业共建生态。

"我们的世界复杂且动态,通用机器人需要理解这种复杂性。"DeepMind 机器人总监 Carolina Parada 表示。当 AI 不仅能解析 "扣篮" 的语义,还能感知篮球的重量、篮筐的高度,机器人便真正拥有了物理世界的常识。这种从知识到行动的跃迁,或许正是具身智能的终极形态 —— 不是替代人类,而是让机器人成为人类探索物理世界的 "数字分身"。

这种从知识到行动的跃迁,或许正是具身智能的终极形态不过,谷歌强调这项工作仍处于“早期探索”阶段。 当 AI 不仅能 "想",还能 "做",且做得比人类更精准、更安全,一场关于人机协作的革命,正在悄然开启。而谷歌的 "微操黑科技",不过是这场革命的序章。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部