在人工智能高歌猛进的今天,具身智能(Embodied Intelligence)正成为科技VC赛道中最火热的话题之一。在2024年联想创投CEO年会上,以《沸腾中的具身智能,产业智能新未来》为主题的圆桌围绕具身智能的产业现状展开,深入讨论了具身智能的产业先机与相关技术发展趋势。
本次panel环节,联想集团副总裁、联想创投合伙人王光熙作为主持人,对话联想集团高级副总裁、联想新兴技术集团总裁、ACM/IEEE/AAAS Fellow芮勇,中国自动化学会会士、浙江大学控制科学与工程学院教授、浙江人形机器人创新中心首席科学家熊蓉,香港工程科学院院士、香港中文大学卓敏讲座教授、天石机器人研究所所长刘云辉,香港科技大学机器人研究院创始院长、戴盟机器人联合创始人兼首席科学家王煜,逐际动力创始人张巍。
与会嘉宾结合具身智能实际运用中的具体问题,分享了具身智能的技术卡点、场景落地等具体挑战,同时分析了实现具身智能目前最紧迫的需求——数据资源,各自提出了解决方案及商业化路径,并乐观展望了具身智能产业的未来。
以下为现场内容实录:
01
产业“沸点”已至创业者躬身入局
王光熙:具身智能无疑是过去一两年在科技VC赛道中最火热的话题之一,联想创投持续关注机器人、泛机器人包括自动驾驶等方向,在泛机器人的领域陆续关注和布局有近30多家企业。随着大模型技术的发展,具身智能作为将AI从语言、语义扩展到多模态、空间智能乃至端到端物理模型的新方向,正受到广泛关注。首先请各位嘉宾分享一下,是看准了什么时代机遇,躬身入局具身智能的创业大潮?
芮勇:我是联想新兴技术集团总裁,主要聚焦AI定义的车计算,包括自动驾驶AI算力平台和系统级全车智能。大模型已经从语言模型向多模态跨越,而端到端的实现,更是将自动驾驶和具身智能统一在同一个AI框架之下,这推动了我们从纯技术角色转向产品和业务的多元探索。
熊蓉:我自2000年起做机器人方向,主要从事机器人智能移动和操作。从个人理解而言,具身智能是带有实体并具备环境交互学习的智能,实现路径与常规人工智能路线有所不同。近期,我们启动了浙江人形机器人创新中心的建设,专注于人形机器人的感知智能、执行智能及与环境的交互等方面。
刘云辉:我从事机器人研究多年,从1992年开始就在这个行业摸爬滚打。近年来,我们创立了未来机器人,专注于自动叉车等领域,并在多个行业进行了技术转化和创新。我认为AI与实体系统的结合是具身智能的核心,而机器人是AI最好的测试场景。
王煜:40年前,我在美国卡内基梅隆大学开始研究机器手和灵巧操作。2023年,我创立了戴盟机器人,致力于将大语言模型和触觉感知等技术应用于机器人灵巧操作。我们认为,大模型、人工智能结合触控等多模态信息的获取,能够使机器人像人一样进行精细操作,带来更多信息价值。
张巍:我于2022年创立逐际动力,专注于具身智能和通用机器人技术。我们认为“移动能力”和“操作能力”是机器人最核心的两个能力,希望通过突破机器人的移动和操作能力,实现全地形移动和通用操作,推动机器人能力的泛化和适应,在打造两个核心能力的过程当中,通过一些阶段性的产品进行落地闭环。我们认为,具身智能是AGI里最重要的组成部分之一。
02
具身智能,求“数”若渴
王光熙:从各位“入局”的经历看,对于具身智能的机遇的理解存在一些共性,如泛化、操作、端到端、AGI,请问各位,从技术角度来看,具身智能发展路径是怎样的,具体挑战有哪些?
熊蓉:具身智能的发展需要突破传统机器人对专家知识和经验的依赖,实现更加泛化和自主的行为。区别于单纯的视觉、语言等信息的感知,具身智能涉及的方面更多,如行为、动作、决策、控制等各个方面以及他们的融合。我们目前正在研究如何通过数据驱动的方法,提升机器人在感知、规划、决策和控制等方面的能力。主要挑战包括数据的获取、算法的设计以及实际应用中的鲁棒性和可靠性。
刘云辉:传统机器人的技术路径是感知、决策、执行,目前人工智能更多投入在感知和决策,可以让机器人应对相对不太复杂的场景。目前,我们在物流场景下取得了一定进展,但如何保证机器人在复杂场景下的可靠性和安全性,仍然是一个巨大的挑战。我认为具身智能需要分阶段实现,首先从感知到决策,再通过执行层面实现。此外,数据的获取和模型的泛化能力也是亟待解决的问题。
王煜:通用人工智能在机器人领域具有广阔的应用前景,但实现这一目标仍面临诸多挑战。单靠语言和图像的信息远不足以支撑机器人精细操作,触觉信息同样至关重要。多模态数据的融合,涵盖温度、摩擦力等因素,是实现灵巧手操作的基础。具身智能如何获得这些能力?我们认为,训练模型需要更加真实、可靠的数据,同时提升机器人在感知和控制方面的能力。目前,我们正致力于研究高动态触觉传感器和多模态信息融合技术,以实现机器人具备类人的精细操作能力。
张巍:大模型向具身智能的跨越,本质上是专用智能、专用机器人向通用智能、通用机器人的变化,强调的是泛化能力。具身智能的发展需要硬件、算法、算力和数据的共同推动,其中,数据的稀缺性是当前面临的最大挑战,真机的数据、仿真的数据、互联网级别的数据缺一不可,我们正在探索如何通过互联网视频等数据源,提升机器人的运动和操作泛化能力。同时,我们也坚信人形机器人作为通用机器人平台的重要性,并致力于实现其广泛应用。
芮勇:端到端的FSD的实现,将自动驾驶与具身智能以AI大框架的方式统合在一起。我认为具身智能可能分几步实现,第一步是自动驾驶车辆,第二步是限定场景下机器人的工作,第三步是非限定通用场景下做泛化。具身智能属于智能体范畴,特征是通过物理世界的实体实现,虽然大模型在语义和语言上取得极大进展,但具身智能需要更多真实世界的数据来训练和优化,尤其是在复杂场景下的物理交互和决策。目前普遍采取真实数据和合成数据结合的“混合式数据”方式弥补数据的稀缺。如何高效地采集、处理和利用数据,是我们当前面临的一大难题。
03
商业化路径交织
描摹产业未来图景
王光熙:刚才已经聊到具身智能的落地,无论是限定场景抑或是通用化场景,具身智能的商业化路径是怎样的?在各位嘉宾眼里,若以五年为期,各位对碳基和硅基共存的未来有怎样的展望?
熊蓉:我们的商业化路径主要分为两个方面。一方面,我们会持续打磨技术,加强数据的采集生成,另一方面落地场景验证技术,同时推动技术的市场化落地。我们会逐步从展厅、零售拓展到工业场景,解决泛化性、精确性和可靠性等问题。核心思路是始终坚持用市场驱动技术、以技术保障产品落地,实现良性循环。此后会向更广泛的应用领域拓展,让人形机器人真正进入千行百业、千家万户。
刘云辉:我们的商业化策略主要围绕视觉驱动的操作场景展开。我们会先在工业场景中寻找落地机会,通过提升抓取速度,解决工业场景视觉驱动抓取过慢的痛点,通过提升可靠性以满足更多工业应用。同时,我们的技术可嫁接至物流、零售和服务行业,探索新的应用场景比如送餐、送物等。我们的关键是以视觉驱动赋能机器人的操作抓取,以技术创新不断满足市场需求。我认为有AI功能的机器人市场潜力大于汽车,大概15年到20年将会超过汽车市场。
王煜:我们的商业化路径比较明确。首先,我们会聚焦在灵巧手的灵巧操作技能的实现上,通过硬件和软件的提升来打造核心竞争力,供给制造人形机器人的企业。其次,我们会将特定场景下的精细操作能力通过数据和学习获得模型,为厂商提供解决方案。在这个过程中,我们会与合作伙伴共同开发新产品、新市场,扩大生产环境和应用场景。我们的目标是让机器人在更多领域具备比人类更强的操作能力。
张巍:我们坚信,具身智能的目标是人形机器人,因为一个不变的原则:具身智能的泛化发展是跳跃式的而非渐变式的。我们的商业化路径是“以终为始、沿途下蛋”,在技术成熟度和市场需求之间找到平衡点。我们会在锻炼自己产品能力的同时,关注全地形移动能力等相对成熟的技术领域进行商业化探索,选择成熟的路径落地。在操作过程中,我们持续寻找方法解决长期的数据驱动泛化能力问题,如结合视频生成等技术。我们的策略是既要技术探索也要技术落地,通过分技术栈模块的方式逐步推进商业化进程。对具身智能的未来我持“工具观”态度,它为人赋能,让生产更有效率。
芮勇:自动驾驶到具身智能的界限变得模糊,同理PC、手机、平板等终端也与具身智能关联颇深。从联想的角度来看,我们的商业化路径是与被投企业和合作伙伴紧密合作,共同推动具身智能技术的商业化进程。我们会关注智能终端的升级,同时也会在汽车智能化和机器人领域寻找合作机会。我们会利用联想在全球范围内的资源和技术优势,为合作伙伴提供算力平台、技术支持和市场渠道等方面的帮助。通过多方合作,共同推动具身智能技术的商业化落地。具身智能前景无限。
王光熙:感谢各位嘉宾的精彩分享。在上述讨论中,我们共同见证了具身智能技术的飞速发展,也深入了解了具身智能在具体应用中的挑战,各位嘉宾根据技术落地情况分享了具身智能的实现路径以及对产业的前沿判断,让我们清晰了解,机器人的角色正逐渐从简单的生产工具转变为人类生活的伙伴和助手,为我们的生产、生活带来前所未有的便利和惊喜。
展望未来,我们期待看到更多具有创新性和实用性的机器人产品涌现,共同推动人类社会的进步和繁荣。感谢各位大咖,今天是一场非常令人兴奋的讨论,让我们更相信硅基智能,更相信未来,谢谢!
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有