科学家提出大语言模型提示框架,使用图形工具实现更可控的流程工程

科学家提出大语言模型提示框架,使用图形工具实现更可控的流程工程
2024年06月27日 18:54 麻省理工科技评论

近期,美国卡内基梅隆大学团队与英伟达、微软和美国波士顿大学的研究人员合作,为多功能智能体(Agent)提出了一种统一的、直观的大语言模型(LLM,Large Language Model)提示框架,名为 AgentKit。

这个框架允许用户用自然语言描述复杂的思维过程,从而创建多功能 AI 智能体。

现在,游戏上的很多 LLM Agent 都是通过特殊的游戏程序接口与游戏进行对接。这种设计不但需要大量的程序例子作为提示,而且需要游戏接口支持,泛化难度比较高。

与之对比的是,该课题组通过 AgentKit 设计出一种基于自然语言的新思路,能够实现同样强大的功能。

由于自然语言简化了交互方式,AgentKit 更易懂且具有更好的通用性。更重要的是,这种方法可以大大减少用户的编程需求,甚至可以让没有编程经验的用户也能创造出功能强大的智能体。

据介绍,AgentKit 的潜在应用包括以下两个方面:

一方面,AgentKit 有望作为智能助手帮助用户订机票、购物等;另一方面,AgentKit 也可以作为更智能的游戏 AI,与用户交互并完成/创造复杂、有趣的任务。

日前,相关论文以《AgentKit:使用图形工具进行流程工程,无需编码》(AgentKit: Flow Engineering with Graphs, not Coding)为题,发表在预印本网站 arXiv 上[1]。

卡内基梅隆大学博士研究生吴岳是第一作者兼通讯作者。

图丨相关论文(来源:arXiv

如前文所说,当前,许多提示框架主要侧重于封装和集成现有功能与工具,而非帮助用户通过提示工程和流程设计,来优化 LLM 的推理性能。

然而,在现实中使用 LLM 解决复杂问题时,LLM 系统本身的推理能力,稳定性和泛化性,才是决定成功的关键。

人类在解决相关问题时,通常会使用一些特定的思维方式或者模板,例如“化整为零”或者“从局部到整体”的思维方式。

AgentKit 旨在让使用者通过图的结构来表达类似的思维方式,从而实现更可控、更稳定的提示工程/流程工程。

图丨用户将撰写论文的任务拆分为构思、大纲、全文等子任务组成的“思维过程”,并为每个子任务(节点)创建提示词。AgentKit 中的子任务(节点)可以以不同的方式进行设计和组装,以实现类似于乐高积木的多功能(来源:arXiv

与搭建乐高积木类似,AgentKit 可以让用户以这样的方式创建智能体。用户可以用简单的日常语言描述小任务,这些小任务就像乐高积木一样成为基本构件。

然后,用户还能够通过图的方式把它们组合在一起。这种方法让复杂的智能程序变得更容易理解和创建。就像用积木搭建复杂的模型一样,这种“思维过程图”的设计可以很自然地表达复杂的智能体。

如果用户想执行撰写论文任务,那么,可从确定“核心信息和此前的研究差距”等思维过程开始。

图丨AgentKit 中的每个节点从其依赖项中接收输出,并输出一个字符串来完成预定义的子任务。橙色组件是可选的,并可以通过 AgentKit 应用程序编程接口通过最少的编程进一步定制(来源:arXiv

根据论文描述,“以不同的方式设计和组合 AgentKit 中的节点,来实现即时分层规划、反思和从交互中学习等多种高级功能”。

另一方面,基于 AgentKit 模块化的特性,用户可以通过自然语言列表创造简单的智能体。因此,即便没有任何相关编程经验的用户,也能够方便地进行设计和调整。

研究人员的实验数据表明,通过 AgentKit 设计的 Agent 在 WebShop 和 Crafter 上实现了 SOTA 性能。

这表明,AgentKit 可使 LLM Agent 有效,并在更广泛的应用程序方面具有应用的可能性。

图丨吴岳(来源:吴岳)

从 2021 年吴岳来到卡内基梅隆大学机器学习专业攻读博士学位开始,就启动了对 LLM Agent 项目的探索,并与学校的多位导师保持积极交流。

虽然当时并不是所有人都完全看好这个研究方向,但与老师们的对话极大地扩展了吴岳的视野和加深了对技术的理解。

吴岳回忆说道:“有一次,我为一位教授准备了详尽的 PPT,介绍了关于‘通过 LLM 读取知识,以加速强化学习训练’的课题计划。虽然这位教授对该课题的实用价值持谨慎态度,但他也同时提出了宝贵的建议,鼓励我进一步丰富 LLM 的应用实例。”

随着 OpenAI 等公司的 LLM 产品在极短时间内展现出强大的潜力,LLM Agent 项目迅速获得了广泛的认可和支持,并逐渐发展为一个备受欢迎的研究项目。

“短短几年间,人们对于 LLM 和 LLM Agent 的看法发生了巨大的转变,这是我在该研究过程中最大的感触。”吴岳表示。

对于该技术的未来发展,他坦言,准备将研究团队在 LLM Agent 的成功经验用在和强化学习的结合,以探索一些更偏底层控制的任务,比如 Minecraft 或者 Atari。

虽然该论文目前还没有同行评审结果,但在 Github 上的很多用户都认为,研究人员所提供的工具开辟了很多新的可能[2]。 

参考资料:

1.https://arxiv.org/pdf/2404.11483.pdf

2.https://github.com/Holmeswww/AgentKit

运营/排版:何晨龙

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部