日前OpenAI推出并开源全新AI Agent评测基准_

当地时间4月2日，OpenAI方面宣布推出并开源一个全新的、名为PaperBench的AI智能体（AI Agent）评测基准。据了解，PaperBench是一个用以评估AI智能体复现前沿AI研究能力的评测基准，其要求AI智能体从零开始复现20篇覆盖12个主题的ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。

为确保PaperBench能够客观进行评估，OpenAI方面与相关论文的原作者共同制定了详细的评分标准，并将每个复现任务分层分解为具有明确评分标准的较小子任务。总的来说，PaperBench共包含8316个可单独评分的任务，而且为了实现可扩展的评估，OpenAI还开发了一个基于大模型、能够根据评分标准自动对AI智能体复现尝试进行评分的评判员，并通过为评判员创建单独的基准来评估评判员的表现。

据OpenAI方面透露，其基于PaperBench对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet（New）和Gemini 2.0 Flash等6款大模型进行了测试。其中，Claude 3.5 Sonnet（New）表现最出色、得分达到21.0%， o1表现次之、得分为13.2%，其他模型的得分则均低于10%。

同时OpenAI方面指出，其还招募了顶尖机器学习博士尝试部分PaperBench测试集，最终发现参与测试的相关大模型表现尚未超越人类基线。

据了解，这并非OpenAI方面推出的首个AI智能体评测基准，此前在2024年，OpenAI便曾推出用以测试AI智能体机器学习代码工程能力的评测基准MLE-Bnch。

值得一提的是，不久前OpenAI CEO Sam Altman曾宣布，计划在未来几个月内发布自GPT-2以来的首个“开源”语言模型。对此他表示，“接下来几个月里OpenAI将发布一个强大的、具有推理能力的新开源模型。我们已经考虑这个问题很久了，但之前一直有更重要的事情要做，现在，我觉得做这件事非常重要”。

此外近期有消息源透露，目前OpenAI旗下生成式AI聊天机器人ChatGPT的付费用户数已超过2000万，相比2024年年底的1550万大幅增长。

【本文图片来自网络】