本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Independent Researcher 耿鹤嘉。通讯作者为上海人工智能实验室青年科学家白磊和牛津大学访问学者,悉尼大学博士生尹榛菲,团队其他成员还有 ailab 实习生薛翔元。
ReSo 框架(Reward-driven & Self-organizing)为复杂推理任务中的多智能体系统(MAS)提供了全新解法,在处理复杂任务时,先分解生成任务图,再为每个子任务匹配最佳 agent。将任务图生成与奖励驱动的两阶段智能体选择过程相结合,该方法不仅提升了多智能体协作的效率,还为增强多智能体的推理能力开辟了新路径。
- 论文标题:ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks
- 论文链接:https://arxiv.org/abs/2503.02390
- 代码地址:https://github.com/hengzzzhou/ReSo
研究背景:LLM 推理能力的掣肘与突破口
近年来,增加推理时间(Inference Time Scaling)被广泛认为是提升大语言模型(Large Language Models, LLMs)推理能力的重要途径之一。一方面,通过在训练后阶段引入强化学习与奖励模型,可优化单一模型的推理路径,使其在回答前生成中间步骤,表现出更强的逻辑链构建能力;另一方面,也有研究尝试构建多智能体系统(Multi-Agent Systems, MAS),借助多个基座模型或智能体的协同工作来解决单次推理难以完成的复杂任务。
相较于单模型的推理时间扩展,多智能体方法在理论上更具灵活性与可扩展性,但在实际应用中仍面临诸多挑战:
(1)多数 MAS 依赖人工设计与配置,缺乏自动扩展与适应性的能力;
(2)通常假设所有智能体能力已知,然而 LLM 作为 “黑箱式” 的通用模型,在实际任务中往往难以预先评估其能力边界;
(3)现有 MAS 中的奖励信号设计较为粗糙,仅依赖结果反馈或自我评估,难以有效驱动优化过程;
(4)缺乏基于数据反馈的动态演化机制,限制了 MAS 系统在大规模任务中的表现与泛化能力。
上述限制提出了一个核心问题:能否构建一种具备自组织能力的多智能体系统,使其能够通过奖励信号直接从数据中学习协作策略,而无需大量人工干预?
为应对这一挑战,作者提出了 ReSo—— 一个基于奖励驱动、自组织演化机制的多智能体系统架构。该方法通过引入协同奖励模型(Collaborative Reward Model, CRM),在任务图生成与智能体图构建之间建立反馈闭环,从而实现基于细粒度奖励的智能体动态优化与协作演化。与现有多智能体方案相比,ReSo 在可扩展性与优化能力上均具优势,并在多项复杂推理任务上达到了领先性能。
ReSo 框架流程图
2. 任务图生成:明确子任务和依赖关系
ReSo 首先使用一个大语言模型将复杂问题分解,转化为分步骤的有向无环任务图 (DAG Task Graph),为后续智能体分配提供基础。
在实践中,对于任务分解,作者既测试了了已有的闭源模型(如 gpt4o),也在开源 LLM (如 Qwen-7b) 上进行监督微调 (SFT) 来执行更专业的任务分解。为了微调开源 LLM,作者构建了合成数据(见后文数据贡献章节),明确要求 LLM 将 Q 分解为逻辑子问题,指定它们的执行顺序和依赖关系,并以 DAG 格式输出。
3. 两阶段智能体选择:从粗到细,精挑细选
2. 从 MCTS 视角看 ReSo:降低复杂度,提升扩展性
任务图经过拓扑排序后,形成一棵决策树,其中每个节点代表一个子任务,边表示依赖关系。在每一层,作者使用 UCB 修剪树并选择一组有潜力的智能体,然后模拟每个智能体并使用 CRM 评估其性能。由此产生的奖励会更新智能体的动态配置文件,从而优化选择策略。MAS 的构建本质上是寻找从根到叶的最佳路径,最大化 UCB 奖励以获得最佳性能。
数据集生成:Mas-Dataset
由于缺乏高质量的 MAS 数据集,作者提出了一种自动化方法来生成多智能体任务数据。这个过程包括随机生成任务图、填充子任务以及构建自然语言依赖关系。提出了一个单个 sample 就具有多学科任务的数据集。开源了数据合成脚本论文合成了 MATH-MAS 和 Scibench-MAS 数据集,复杂度有3,5,7。复杂度为 7 的意思为,单个题目中由7个子问题组成,他们来自不同的领域(数学,物理,化学)。子问题之间有依赖关系,评测模型处理复杂问题的能力。下图是个 Scibench-MAS 复杂度为 3 的例子:
实验结果
主要结果
表 1 的实验结果实验表明,ReSo 在效果上匹敌或超越现有方法。ReSo 在 Math-MAS-Hard 和 SciBench-MAS-Hard 上的准确率分别达到 33.7% 和 32.3% ,而其他方法则完全失效。图 3 显示,在复杂推理任务中,ReSo 的表现全面优于现有 MAS 方法,展现了其卓越的性能和强大的适应性。


财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有