Lang2LTL:让人类与机器人之间可以无缝沟通布朗大学和普林斯顿大学联合开发出一种基于大语言模型的人机AI交互系统。重塑了人类与机器人的沟通方式,使得机器人能够理解和执行用人类日常语言表达的各种指令。而且无需任何训练,即可直接部署在机器人上,直接可以进行对话指挥机器人干活。Lang2LTL系统在以下几个方面表现出了先进的性能:1、无需特定环境的训练数据:与现有方法不同,Lang2LTL不需要特定环境和地标的训练数据来理解命令。2、模块化系统和软件包:Lang2LTL是一个模块化的系统,提供了一个软件包,可以在没有先前语言数据的环境中实现命令的转换。3、五种定义良好的泛化行为:Lang2LTL针对五种泛化行为进行了评估,这些行为定义了系统应对未见环境的能力。4、实体机器人的应用:研究团队展示了实体机器人使用Lang2LTL遵循多样化的导航命令的能力,这些命令在两个室内环境中进行了测试。背景知识:人类通过自然语言在向机器人表达时指令的时候会出现各种问题,经常导致错误的行动理解或长时间的规划延迟。而且需要事先进行大量的代码编写和成千上万小时的数据、任务训练。Lang2LTL,通过使用类似于驱动聊天机器人的A.I.语言模型的创新方法,将指令分解并简化,从而消除了对训练数据的需求。这个系统的新颖之处在于它能够理解丰富和表达性的语言,代表了迄今为止发布的最强大的路线指令语言理解系统之一,因为它可以在没有训练数据的情况下立即在机器人中工作。传统上,如果开发者希望机器人在波士顿规划并完成路线,例如,他们必须收集不同的人在城市中给出指令的例子,如“穿过波士顿公园但避开青蛙池”,以便系统知道这意味着什么,并能将其计算给机器人。如果他们希望机器人然后在纽约市导航,他们必须重新进行所有的训练。工作原理:Lang2LTL系统的工作原理基于将自然语言指令转换成机器人可以理解和执行的形式化命令。这个过程涉及几个关键步骤:1、语言理解:系统首先使用大型语言模型来解析自然语言指令。这些模型经过训练,能够理解和处理人类语言的复杂性和多样性。2、分解和简化:然后,系统将指令分解成更简单的组件。这一步骤是为了提取出指令中的关键信息,如目的地、路径限制和顺序要求等。3、形式化表示:接下来,系统将简化后的指令转换为形式化的命令,这些命令是机器人能够理解的。在Lang2LTL中,这些形式化命令被称为线性时态逻辑(Linear Temporal Logic, LTL)表达式。4、行动规划:机器人使用这些LTL表达式来规划其行动。LTL表达式为机器人提供了一系列可执行的步骤,这些步骤考虑了指令中的所有要求和限制。5、执行:最后,机器人执行这些步骤来完成任务。这个系统的创新之处在于,它不需要大量的特定于任务的训练数据。相反,它依赖于语言模型的广泛理解能力,以及将指令转换为LTL表达式的能力,这使得机器人能够处理更复杂和多样化的指令。这种方法提高了机器人理解和执行复杂指令的能力,同时减少了对大量训练数据的依赖。测试结果:研究人员已经在21个城市使用OpenStreetMap进行了软件模拟测试,显示系统的准确率为80%。这个数字远比其他类似系统的准确率高,研究人员说,其他系统的准确率只有大约20%,并且只能计算简单的途径点导航,如从点A到点B。这些系统也不能考虑约束,比如需要避开一个区域或在到达点A或点B之前必须去另一个地点。除了模拟测试,研究人员还在布朗大学校园内使用波士顿动力Spot机器人对他们的系统进行了室内测试。总的来说,这个项目增加了来自Tellex实验室的高影响力工作的历史,这包括使机器人更好地遵循口头指令的研究,改进机器人获取物体能力的算法,以及帮助机器人产生类似人类笔迹的软件。研究人员已经在考虑项目的下一步。他们计划在11月发布一个基于OpenStreetMaps的模拟演示,在项目网站上,用户可以自己测试系统。网络浏览器的演示将允许用户输入自然语言指令,指导模拟中的无人机执行导航命令,让研究人员研究他们的软件如何工作以进行微调。不久之后,团队希望向软件添加物体操纵能力。Lang2LTL与LLMs的区别:Lang2LTL系统与大言模型(如GPT系列)之间的主要区别在于它们的应用目的和处理方式。1、应用目的:大语言模型:旨在理解和生成自然语言,能够进行对话、回答问题、写作、翻译等多种语言任务。Lang2LTL系统:专注于将自然语言指令转换为机器人可以理解和执行的形式化命令,即线性时态逻辑(LTL)表达式。2、处理方式:大语言模型:通过大规模的数据训练,学习语言的模式和结构,以及如何在不同的上下文中使用它们。Lang2LTL系统:使用大型语言模型作为理解自然语言的一部分,但它进一步将理解的内容转换为LTL表达式,这是一种机器人可以用来规划和执行任务的形式化语言。3、依赖数据:大语言模型:需要大量的数据来训练,以便学习语言的广泛用法。Lang2LTL系统:虽然使用了大型语言模型,但它减少了对特定任务训练数据的依赖,因为它能够将自然语言映射到形式化命令上。4、输出:大语言模型:输出是自然语言文本,旨在直接与人类用户交流。Lang2LTL系统:输出是LTL表达式,这些表达式是为了被机器人的规划系统所理解和执行。详细内容:项目及演示:lang2ltl.github.io/论文:lang2ltl.github.io/static/papers/Lang2LTL_CoRL23.pdfGitHub:github.com/h2r/Lang2LTL视频展示了一台使用Lang2LTL的Spot机器狗可以在两个室内环境中遵循52个语义多样的导航命令执行任务。↓