具身智能,看得见的未来

具身智能,看得见的未来
2024年07月02日 15:30 大数据_文摘

作者:俊俊

各种如火如荼的人工智能大会或活动上,除了大模型之外,还有一个高频词——具身智能(Embodied AI )。

具身智能正在塑造未来?

都在发力,咋这么火?

具身智能,顾名思义,指有身体并支持物理交互的智能体。

且不谈具身智能是不是在塑造未来,至少目前行业大佬们纷纷为具身智能站台加码。

英伟达CEO黄仁勋不仅提出“人工智能的下一个浪潮是具身智能”,更是直接成立新的研究部门GEAR(Generalist Embodied Agent Research,通用具身智能体研究), 专注通用具身智能体研究。

马斯克则表示,人形机器人将是今后特斯拉主要的长期价值来源,并展示过特斯拉人形机器人Optimus的全新型号,和具身智能机器人几乎划等号。

华为天才少年“稚晖君”辞职后创立的“智元机器人”——最近一年的时间,这家炙手可热的公司融了6轮,资方名单包括红杉中国、上汽投资等。成立不过短短一年多,“智元机器人”估值已飙升至70亿元。

北航机器人所名誉所长王田苗,不仅是一位学术泰斗,更是带领一群年轻人把校园科创项目做到上市公司的创业导师。在他投资的超过70个项目中,赫赫有名的有九号机器人、国内手术机器人第一股天智航、工业机器人埃夫特等等。

一位具身机器人公司CEO则表示,近来找他的投资人都在排队,“(我们)不接受比较拖拉的(投资),谁的效率高、速度快,我们优先要谁的钱。”

谷歌、微软、特斯拉等科技公司也都相继公布了自家的具身智能产品,国內头部科技大厂如华为、京东,也开始将自身在具身智能领域的相关布局,向大众布道。

一位通用机器人公司的联创调研了一圈市场后惊讶发现——最近半年时间,国内冒出了小一百家机器人公司,甚至很多非机器人背景的人也挤上牌桌。

可谓是波澜壮阔,声势浩大,AI大模型的商业困局终于通过具身智能找到了出路了嘛?

具身智能,必须人形?

目前来看,AI学术界和工业界,确实已经将“具身智能”,作为下一个风口。

让实体世界中的机器人/仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务已经变得越来越普遍。

具身智能让AGI从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机等。

如今不少人都认为,具身智能的最终形态,一定是人形的。人形机器人是大家公认的机器人形态。

对此,整个硅谷也都达到了共识,英伟达GTC大会上,出现的也全是人形形态的机器人。

不过,高矮胖瘦、用什么驱动这样的细节,目前还很难统一,但大家都在朝人的形态开始做收敛,朝这个方向努力。

长远来看,未来具身智能+人形机器人或将成为通用人工智能的演进方向。

但,具身智能必须是人形吗,必须是双足吗?靠机器狗,可不可以实现具身智能呢?

有些人对于人形机器人则有一些特别的看法。

李开复就认为,具身智能或许并不需要是人形机器人,绝大多数场景几个轮子更容易走,爬楼梯在绝大多数场景其实也并不是绝对被需要,而这些复杂的功能,却带来了更高的技术难度与成本支出。

张亚勤则认为无人驾驶是具身智能的第一个最大的应用,目前无人驾驶在安全性方面已经比人类驾驶高至少10倍。但还存在一些问题,如开得不够熟练、不够像老司机等。他认为在明年会实现第一个真正实现具身智能或者物理智能的AGI无人驾驶。

所以,你觉得具身智能在未来的形态是什么样的呢?(欢迎文末留言互动,没有奖励)

技术引领,方能进步

技术带来着产品的革新,具身智能有望打开 AI 新空间,引领人工智能下一站浪潮。

1950 年,图灵在他的论文《Computing Machinery and Intelligence》中首次提出具身智能的概念。

在此后几十年里,具身智能作为很重要的概念,并没有取得很大的进展——当时的技术还不足以支撑其发展,AI智能水平都达不到大众的预期,无法取得有成效的产业化进展。

到了今天,多学科的技术已经改变了这一局面。具身智能的研究已广泛拓展到教育、材料、能源等领域,第三次人工智能浪潮,具身智能的希望重燃,就在于跟大模型“两开花”, 成为未来新一代人工智能理论与应用突破的一个重要窗口。

如今,具身智能,又或称之为“具身智能机器人”,是指像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人或仿真人。

其实我们很多人都已经见过或者玩过具身智能产品了。

如,索尼的机器狗AIBO,软银的服务机器人pepper,还有波士顿动力的人形机器人和机器狗……这些具身智能产品,曾是不少人的童年回忆,或者科幻恐惧。

虽然技术概念很超前,但这些产品的市场表现,其实并不太理想,技术落地难、产品被停产、企业被转卖,都不算新闻。

所以也造成,不少人认为,具身智能作为AI的终极形态之一,只是商业化需求所推动的营销概念。

其实,具身智能机器人涉及到众多的学科,如,软件工程、自然语言处理、物理学(仿真)、生物医学等。多个学科最终汇聚为庞大的系统,共同推动具身智能机器人进一步发展。

具身智能与非具身智能的区别在于能够从环境交互中自主学习,并产生对客观世界的理解与改造,不依赖人工进行的数据标注。

它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。如果要进入物理世界,首先最重要的就是视觉听觉嗅觉,听懂人类语言,正确感知周围环境;其次分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务。

具身智能,被赋予的是智能体与物理世界交互和在交互中学习的能力。这种能力,是无法通过看图/看文这样的数字世界和典型的数据模态及经验而获得的。实现具身智能需要多个学科的交叉能力。

当前具身智能产业链中包括数字基础设施、机器人制造、机器视觉、多模态大模型的厂商等相关环节投资机会也正随具身智能的热度提升而受到广泛关注。

机器人制造:为具身智能提供了机械的身体和基本的运动控制。

深度学习:该学科中的神经网络仍然是具身智能中主要的工具,为具身智能提供推理能力;强化学习,从环境反馈中,帮助具身智能调优模型。

多模态:计算机视觉,为具身智能提供处理视觉信号能力;语音与自然语言处理,为具身智能提供理解与对话能力,实现与人类交互。

计算机图形学:其开发的物理仿真环境给具身智能提供了真实物理世界的替代,大大加快了学习的速度并降低了成本。

认识科学:帮助具身智能理解人类,构建认识与价值。

每个机器人智能体的数据实际上是不同的,基于不同的数据,就能构建不同的模型,产生不同的智能。

未来的具身智能,应该是结合多模态技术,从而完成智能性的任务。

但具身智能所面临的具体挑战也不少。

比如数据的挑战,具身智能的数据,不同于“纸上谈兵”的算法,只能从与物理世界的交互中获得,具有很大的隐私性、高成本、敏感性,不能批量生产,这就对能力优化迭代造成了限制。

数据魔咒已经成为当前具身智能领域的一个共识,要尽快去实际场景中获得更多高质量的数据,而且是用商业化的方式低成本地去获取,然后再反过来推动技术的进一步发展和落地。

此外,用户对于具身智能机器人的安全性要求极高,如果家政服务机器人将水倒在了插电孔,机器狗摔倒压住人类,这些故障都是不能被接受的。

尽管具身智能很重要,其有着自身的局限性,与离身智能的紧密结合,才是实现通用智能的必由之路。可靠、可用、可市场化的具身智能,目前看还比较遥远,需要长期投入。

好在,现在的我们,终于可以将具身智能作为一个产业风口来畅想和实现了,能够见证这件事的发生,已经十分值得人类为之自豪。

星辰大海与商业盈利之间的沟壑,是每一家AI企业都要穿越的“死亡之谷”。

好在,不少科学家也推论,大模型的技术路径打通之后,下一个突破是具身智能。

具身智能未来更是可望获得突破的发展,方向包括形态涌现、感知进化、物理实现、多体协同等。

我们相信更好的技术,正在迁跃具身智能产业发展,丰富人类生活体验,让科技更好地造福人类。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部