谷歌推出两款新型AI模型，从 "听懂指令" 到 "拿捏现实" 的具身智能革命_

具身智能

北京时间2025年3 月 12 日，谷歌宣布推出两款基于Gemini 2.0的新型人工智能（AI）模型。

编辑 | 数据君

北京时间2025年3 月 12 日，谷歌宣布推出两款基于Gemini 2.0的新型人工智能（AI）模型，旨在开发更灵活、可互动的机器人，有望推动机器人在更多场景中的应用和普及。据DeepMind机器人部门的高级总监Carolina Parada介绍，Gemini Robotics通过整合Gemini的多模态世界理解能力，并加入物理行动的新模态，成功实现了向现实世界的拓展。

双模型架构：重构机器人“大脑”

Gemini Robotics：视觉-语言-行动的“全能选手”，基于谷歌最新旗舰AI模型Gemini 2.0，Gemini Robotics通过融合视觉、语言和物理行动模态，赋予机器人多模态理解能力。其最大亮点在于无需特定训练即可应对新场景，例如从未接触过“扣篮”指令的机器人，能通过理解篮网形态和指令含义，精准完成塑料球入筐动作。此外，该模型在精细操作（如折纸、开瓶盖）和动态互动中表现出色，显著提升了机器人在家庭服务、工业制造等场景的实用性。
Gemini Robotics-ER：动态环境的“推理大师”，针对复杂任务设计，该模型专注于空间推理与环境动态分析。例如，在装便当盒时，机器人需综合判断物品摆放位置及操作顺序，Gemini Robotics-ER通过对接低级控制系统，可自主生成高效解决方案。这一能力使其在医疗护理、仓储物流等领域潜力巨大。

在预先录制的演示视频中，谷歌研究人员展示了运行其技术的机器人如何响应简单指令。其中一台机器人站在一堆字母拼图前，在训练员要求它拼出一个单词时，它拼出了“Ace”。

行业震动：从 "定制训练" 到 "零适应" 时代

传统机器人需针对每个场景进行数千小时训练，而 Gemini 系列在综合泛化基准测试中，性能较前代提升 200%。

Gem

ini

Robotics能适应不同形态的机器人。其训练数据主要来源于双臂机器人平台ALOHA 2，但同样能够驾驭基于Franka机械臂的双臂平台等其他机器人形态。对于像Apptronik开发的人形机器人Apollo这样更为复杂的形态，Gemini Robotics也具备良好的适配性。

这种 "无师自通" 的能力，直接戳破行业 "定制化陷阱"—— 某 3C 工厂测试显示，搭载新模型的机械臂，从手机组装切换至海鲜分拣的适应时间，从 72 小时缩短至 45 分钟。

战略重启：谷歌机器人的 "二次觉醒"

此次发布堪称谷歌机器人战略的 "重启宣言"。回溯2013年，谷歌接连收购了Schaft、Industrial Perception、Meka Robotics等8家与机器人有关的公司。2014年1月，谷歌相继收购了人工智能公司DeepMind和智能家居公司Nest。却因商业化困境在 2021 年关闭日常机器人部门。

如今依托 Gemini 大模型的认知能力，谷歌选择 "轻硬件、重大脑" 的路径 —— 新模型不仅适配 Franka 机械臂、Apptronik 人形机器人等多形态设备，更通过 "可信测试者计划" 向行业开放，与 Agile Robots 等企业共建生态。

"我们的世界复杂且动态，通用机器人需要理解这种复杂性。"DeepMind 机器人总监 Carolina Parada 表示。当 AI 不仅能解析 "扣篮" 的语义，还能感知篮球的重量、篮筐的高度，机器人便真正拥有了物理世界的常识。这种从知识到行动的跃迁，或许正是具身智能的终极形态 —— 不是替代人类，而是让机器人成为人类探索物理世界的 "数字分身"。

这种从知识到行动的跃迁，或许正是具身智能的终极形态不过，谷歌强调这项工作仍处于“早期探索”阶段。当 AI 不仅能 "想"，还能 "做"，且做得比人类更精准、更安全，一场关于人机协作的革命，正在悄然开启。而谷歌的 "微操黑科技"，不过是这场革命的序章。