GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉
2024年04月20日 09:01 数据观资讯平台

编辑| 数据君

尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。

近期,SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中,SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型,SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。

报告主要结论

● 整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。

● 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。

● 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。

大模型能力迁移&SuperBench

自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下5个阶段:

2018年-2021年:语义评测阶段

早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、 GPT、T5等。

2021年-2023年:代码评测阶段

随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年:对齐评测阶段

随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。

2023年-2024年:智能体评测阶段

基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。

2023年-future:安全评测阶段

随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。

报告部分内容如下

获取原文

后台输入:0420 可获取报告原文,有效期3天。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部