科学家提出大语言模型提示框架，使用图形工具实现更可控的流程工程_

近期，美国卡内基梅隆大学团队与英伟达、微软和美国波士顿大学的研究人员合作，为多功能智能体（Agent）提出了一种统一的、直观的大语言模型（LLM，Large Language Model）提示框架，名为 AgentKit。

这个框架允许用户用自然语言描述复杂的思维过程，从而创建多功能 AI 智能体。

现在，游戏上的很多 LLM Agent 都是通过特殊的游戏程序接口与游戏进行对接。这种设计不但需要大量的程序例子作为提示，而且需要游戏接口支持，泛化难度比较高。

与之对比的是，该课题组通过 AgentKit 设计出一种基于自然语言的新思路，能够实现同样强大的功能。

由于自然语言简化了交互方式，AgentKit 更易懂且具有更好的通用性。更重要的是，这种方法可以大大减少用户的编程需求，甚至可以让没有编程经验的用户也能创造出功能强大的智能体。

据介绍，AgentKit 的潜在应用包括以下两个方面：

一方面，AgentKit 有望作为智能助手帮助用户订机票、购物等；另一方面，AgentKit 也可以作为更智能的游戏 AI，与用户交互并完成/创造复杂、有趣的任务。

日前，相关论文以《AgentKit：使用图形工具进行流程工程，无需编码》（AgentKit: Flow Engineering with Graphs, not Coding）为题，发表在预印本网站 arXiv 上[1]。

卡内基梅隆大学博士研究生吴岳是第一作者兼通讯作者。

图丨相关论文（来源：arXiv）

如前文所说，当前，许多提示框架主要侧重于封装和集成现有功能与工具，而非帮助用户通过提示工程和流程设计，来优化 LLM 的推理性能。

然而，在现实中使用 LLM 解决复杂问题时，LLM 系统本身的推理能力，稳定性和泛化性，才是决定成功的关键。

人类在解决相关问题时，通常会使用一些特定的思维方式或者模板，例如“化整为零”或者“从局部到整体”的思维方式。

AgentKit 旨在让使用者通过图的结构来表达类似的思维方式，从而实现更可控、更稳定的提示工程/流程工程。

图丨用户将撰写论文的任务拆分为构思、大纲、全文等子任务组成的“思维过程”，并为每个子任务（节点）创建提示词。AgentKit 中的子任务（节点）可以以不同的方式进行设计和组装，以实现类似于乐高积木的多功能（来源：arXiv）

与搭建乐高积木类似，AgentKit 可以让用户以这样的方式创建智能体。用户可以用简单的日常语言描述小任务，这些小任务就像乐高积木一样成为基本构件。

然后，用户还能够通过图的方式把它们组合在一起。这种方法让复杂的智能程序变得更容易理解和创建。就像用积木搭建复杂的模型一样，这种“思维过程图”的设计可以很自然地表达复杂的智能体。

如果用户想执行撰写论文任务，那么，可从确定“核心信息和此前的研究差距”等思维过程开始。

图丨AgentKit 中的每个节点从其依赖项中接收输出，并输出一个字符串来完成预定义的子任务。橙色组件是可选的，并可以通过 AgentKit 应用程序编程接口通过最少的编程进一步定制（来源：arXiv）

根据论文描述，“以不同的方式设计和组合 AgentKit 中的节点，来实现即时分层规划、反思和从交互中学习等多种高级功能”。

另一方面，基于 AgentKit 模块化的特性，用户可以通过自然语言列表创造简单的智能体。因此，即便没有任何相关编程经验的用户，也能够方便地进行设计和调整。

研究人员的实验数据表明，通过 AgentKit 设计的 Agent 在 WebShop 和 Crafter 上实现了 SOTA 性能。

这表明，AgentKit 可使 LLM Agent 有效，并在更广泛的应用程序方面具有应用的可能性。

图丨吴岳（来源：吴岳）

从 2021 年吴岳来到卡内基梅隆大学机器学习专业攻读博士学位开始，就启动了对 LLM Agent 项目的探索，并与学校的多位导师保持积极交流。

虽然当时并不是所有人都完全看好这个研究方向，但与老师们的对话极大地扩展了吴岳的视野和加深了对技术的理解。

吴岳回忆说道：“有一次，我为一位教授准备了详尽的 PPT，介绍了关于‘通过 LLM 读取知识，以加速强化学习训练’的课题计划。虽然这位教授对该课题的实用价值持谨慎态度，但他也同时提出了宝贵的建议，鼓励我进一步丰富 LLM 的应用实例。”

随着 OpenAI 等公司的 LLM 产品在极短时间内展现出强大的潜力，LLM Agent 项目迅速获得了广泛的认可和支持，并逐渐发展为一个备受欢迎的研究项目。

“短短几年间，人们对于 LLM 和 LLM Agent 的看法发生了巨大的转变，这是我在该研究过程中最大的感触。”吴岳表示。

对于该技术的未来发展，他坦言，准备将研究团队在 LLM Agent 的成功经验用在和强化学习的结合，以探索一些更偏底层控制的任务，比如 Minecraft 或者 Atari。

虽然该论文目前还没有同行评审结果，但在 Github 上的很多用户都认为，研究人员所提供的工具开辟了很多新的可能[2]。

参考资料：

1.https://arxiv.org/pdf/2404.11483.pdf

2.https://github.com/Holmeswww/AgentKit

运营/排版：何晨龙

头条号入驻

麻省理工科技评论源自麻省理工学院，关注即将商业化的创新，聚焦即将资本化的创业。

今日推荐优秀作者看点月榜

4000520066 欢迎批评指正