作者|黄楠
编辑|袁斯来
对具身智能而言,开发环境感知和理解是核心能力。视觉感知作为机器和物理世界交互的基础,自Transformer架构诞生后,视觉模型与之结合、走上一条“从小变大,从N变1”之路,带来了全场景视觉感知能力的提升,为技术落地拓宽空间。
11月22日,2024 IDEA大会在深举办,IDEA研究院现场发布了最新的DINO-X通用视觉大模型,它具备物体级别理解能力,无需用户提示,即可实现对开放世界(Open-world)目标检测;同时还推出行业平台架构,通过大模型基座结合通用识别技术结合,实现模型不需重新训练就可边用边学,以支持多种应用需求。
以具身智能为代表新一轮落地浪潮中,技术路径更强调泛化性,追求现实场景适配。会上,IDEA研究院宣布达成了三大合作:与腾讯,在深圳福田区、河套深港科技创新合作区落地建设福田实验室,聚焦人居环境具身智能技术;与美团,探索无人机视觉智能技术;与比亚迪,拓展工业化机器人智能应用。
IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋
此前,机器人已进入工厂制造、汽车生产车间、物流仓储码头等场景,可在半结构化领域中完成基础性工作,但仍缺乏对真实场景的认知能力,应用空间局限;比如住宅区域地面车辆的物流配送,需要克服复杂的地面环境。
IDEA研究院计算机视觉与机器人研究中心负责人张磊就指出,“机器人有不同的形态,有双臂机器人、移动机器人,如果移动机器人分室内、室外,室外更像是无人驾驶,需要面对结构化、半结构化的道路环境,高速公路更结构化,进到城市再到小巷,面对的问题更复杂。”
而AI大模型的到来,大幅度提升了机器人认知和决策能力。腾讯Robotics X实验室智能体中心负责人韩磊表示,“语言作为人类知识或是思维的高度抽象,符号化的语言可进行长期且慢速的高维思考。而机器人是站在第一人称视角看待这个世界的Agent,所以首要的是从视觉理解这个世界。”
《从视觉到行动:具身智能的挑战和机遇》圆桌
当机器人进行运动时,一个纸盒子的折叠、向某一方向的行进,往往难以用简单的语言进行步骤描述,而有了多模态加入后,融合物理世界认知的具身智能可以有效增强机器人对世界的理解角度。
在落地方面,美团副总裁兼无人机业务部负责人毛一年认为,机器人首要的应用场景,应该以人类的高风险任务作为切入点,如上山巡检、 深海检测、油田钻井、高楼清洁等,“随着全身控制、行动控制、手、视触协同,从小场景做进去、用起来,用户不会说它好,也不会骂它,不会一脚把它清出去。我们希望看到它不砸锅,这件事很重要。”
IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋指出,在技术大爆发时期开展创新,对技术的深度理解尤为重要。而“深圳是一座用迭代软件的速度迭代硬件的城市。”
除上述提及的福田实验室外,IDEA与前海深港合作区共建IDEA前海创新院,与深圳龙岗区合作建设IDEA低空经济分院,与横琴粤澳深度合作区共建IDEA-横琴数字技术及人工智能测评中心。初创生态方面,IDEA也孵化有识渊科技、AI玩伴机器人爱小伴、GPU加速电影工业渲染器Smaray慧光追等生态企业。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有