日前OpenAI推出并开源全新AI Agent评测基准

日前OpenAI推出并开源全新AI Agent评测基准
2025年04月03日 19:35 三易生活

当地时间4月2日,OpenAI方面宣布推出并开源一个全新的、名为PaperBench的AI智能体(AI Agent)评测基准。据了解,PaperBench是一个用以评估AI智能体复现前沿AI研究能力的评测基准,其要求AI智能体从零开始复现20篇覆盖12个主题的ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。

为确保PaperBench能够客观进行评估,OpenAI方面与相关论文的原作者共同制定了详细的评分标准,并将每个复现任务分层分解为具有明确评分标准的较小子任务。总的来说,PaperBench共包含8316个可单独评分的任务,而且为了实现可扩展的评估,OpenAI还开发了一个基于大模型、能够根据评分标准自动对AI智能体复现尝试进行评分的评判员,并通过为评判员创建单独的基准来评估评判员的表现。

据OpenAI方面透露,其基于PaperBench对GPT-4o、o1、o3-mini、DeepSeek-R1、Claude 3.5 Sonnet(New)和Gemini 2.0 Flash等6款大模型进行了测试。其中,Claude 3.5 Sonnet(New)表现最出色、得分达到21.0%, o1表现次之、得分为13.2%,其他模型的得分则均低于10%。

同时OpenAI方面指出,其还招募了顶尖机器学习博士尝试部分PaperBench测试集,最终发现参与测试的相关大模型表现尚未超越人类基线。

据了解,这并非OpenAI方面推出的首个AI智能体评测基准,此前在2024年,OpenAI便曾推出用以测试AI智能体机器学习代码工程能力的评测基准MLE-Bnch。

值得一提的是,不久前OpenAI CEO Sam Altman曾宣布,计划在未来几个月内发布自GPT-2以来的首个“开源”语言模型。对此他表示,“接下来几个月里OpenAI将发布一个强大的、具有推理能力的新开源模型。我们已经考虑这个问题很久了,但之前一直有更重要的事情要做,现在,我觉得做这件事非常重要”。

此外近期有消息源透露,目前OpenAI旗下生成式AI聊天机器人ChatGPT的付费用户数已超过2000万,相比2024年年底的1550万大幅增长。

【本文图片来自网络】

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部