我们用3000多道测试题，帮你找到了最聪明的大模型

作者 | InfoQ 研究中心

截至 2023 年底，国产大模型数量近 200 个，通用大模型、行业大模型和行业大模型应用百花齐放。在经历了激烈的市场竞争后，行业焦点逐步转向应用层面的多元化发展。生成式人工智能已经成为主流领域的重要组成部分，不仅改善了用户体验和工作效率，还催生了新的商业模式和应用创新。

那么，这些热门大模型的综合能力到底如何呢？InfoQ 研究中心采用桌面研究和科学分析方法，聚焦语义理解、文学创作、知识问答、逻辑推理、编程能力等九大核心能力，对十款热门模型进行了超过 3000 道题目的测试。

InfoQ 研究中心将测试经过和结果总结成了《大语言模型综合能力测评报告 2024》（以下简称《报告》）中。本报告旨在通过全面、客观地评估当前流行的大模型，为大语言模型技术的具体实践和未来探索提供方向。

本次测试的模型产品和大模型主要包括：ChatGPT4（GPT-4）、Bard2.0(Gemini Pro)、文心一言专业版 (文心大模型 4.0)、通义千问 V2.1.1（通义大模型 2.0）、百川大模型 v1.0（百川大模型 53B）、讯飞星火 V3.0（星火认知大模型 3.0）、360 智脑 4.0（360 智脑 4.0）、智谱清言网页版（ChatGLM-3）、豆包（云雀大模型）、Kimi Chat 网页版（Moonshot AI 大模型）。

为了保证报告的客观性、公正性及计算结果的准确性，InfoQ 研究中心根据样本制造了一套科学的计算方法——通过实际测试获得各模型对 300 道题目的答案，针对答案进行评分，正确答案获得 2 分，部分正确的答案获得 1 分，完全错误的获得 0 分，模型表示不会做的获得 -1 分。计算公式为“某模型在某细分类别题目得分率 = 模型得分 / 模型总分”。举个例子，A 大模型在 7 道题目的类别中总得分为 10，该类题目可获得的总得分为 7*2=14，则 A 大模型在这个题目类别的得分为 10/14=71.43%。

基于以上评测方法，报告主要得出了许多值得大家关注的结论，希望下文的核心结论解读可以为各位的未来大语言模型技术具体实践和探索提供方向。

核心结论 1：整体能力大幅提升，逻辑推理等进阶能力表现亮眼

据 InfoQ 研究中心的测评结果显示，相较于 2023 年 5 月，大语言模型的各项能力均有明显提升，整体得分率平均提升 23.39%（除多模态题），其中编程类、翻译题、知识题、商业写作、文学写作题目的得分率都超过了 80%。

大模型综合测试结果 👇

与 2023 年 5 月测试得分率比较结果 👇

2023 年 5 月测评结果请查阅《大语言模型综合能力测评报告 2023》

https://www.infoq.cn/minibook/vWO39J1tlb9xlSaIJoI6

数据说明：InfoQ 研究中心绘制测评结果仅基于上文所列模型，测评截止时间为 2024 年 1 月 5 日

核心结论 2: 进阶能力快速提升，编程分数遥遥领先

让人惊喜的是，大模型在进阶能力方面取得了显著进步。其得分率提升了高达 35.77%。在逻辑推理、编程题以及上下文理解等题目的得分率上，相较于 2023 年 5 月的测试结果，其得分率提升了 35.77%，这充分凸显出大模型在逻辑推理能力上的卓越表现。

（一）编程能力

在编程能力方面，大语言模型的表现更是令人瞩目。它不仅获得了所有题目的最高分，而且总得分率达到了 87%。这一成绩充分展示了大语言模型在编程领域的强大实力和巨大潜力，为未来更广泛的应用场景奠定了坚实基础。

通过调研 InfoQ 研究中心发现，开发者不但是第一批大语言模型的使用者，良好的使用体验已经推动了 63.5% 的开发者已经开始付费试用产品。

（二）逻辑能力

逻辑推理能力，大语言模型的进步最快，平均得分为 51.92%，相比于上一次测试，提升幅度达到 49.45%。其中，商务制表和幽默题表现突出，得分超过 70%，中文特色推理、MBA 逻辑推理、数学计算和数学应用题细分领域存在较大提升空间，最低分仅为 44%，需要进一步加强训练和优化。

（三）上下文能力

在上下文推理方面，大语言模型的发展取得了显著进展。其平均得分率达到了 65.25%，相较于上一次测评，这一数字提高了 34.54%，进步之大可见一斑。特别值得一提的是，在连贯性测试中，大语言模型的表现尤为出色，得分超过了 80%，显示出其在这方面的强大实力。然而，我们也必须看到，在上下文推理方面，大语言模型仍有待进一步提升，需要继续努力以取得更好的成绩。

（四）翻译能力

在翻译能力方面，大语言模型展现出了优秀的性能。尤其在英文写作上，它获得了满分的佳绩。然而，相对而言，在英译汉题目上得分仅为 73%，大语言模型这方面能力还有待加强，需要进一步提升以更全面地发挥其翻译潜力。

（五）多模态能力

值得一提的是，多模态板块得分尽管当前平均得分率依旧不高，但与 2023 年 5 月的测试成绩相比，分数实现了 20 倍的显著增长。

文心一言专业版、讯飞星火、ChatGPT-4 等多项产品开始展现出强大的多模态能力，为大模型的发展开辟了更广阔的前景。

核心结论 3：基础能力普遍表现稳健，整体得分呈现高水平

（一）知识问答能力

大语言模型展现出了卓越的知识问答能力，其平均得分率高达近 84.68%。尤其在医学、地理和生活常识类题目中，成绩更是超过了 90%。然而，相对而言，在科学常识的细分领域，大语言模型还有待提升。

（二）文学写作能力

在文学写作领域，大语言模型在简单的中文写作和诗词创作方面表现突出，得分超过 85%。但随着写作难度的增加，其表现逐渐下滑，特别是在对联和富含中文特色的写作上显得力不从心。

（三）商业写作能力

在商业写作方面，大语言模型同样展现出了不俗的实力。在访谈提纲题目中更是获得了满分的好成绩，邮件写作题目的得分也超过了 90%。不过，在市场运营报告和市场分析报告等更为专业的领域，大语言模型仍显得较为生疏，存在较大的提升空间。

（四）词句理解能力

在词句理解方面，大语言模型的整体得分为 74.17%。在关键词提炼、语义相似判断和“怎么办”这三个题目分类中，大语言模型的表现呈现出较大的差异。其中，“怎么办”类题目获得了高达 94.5% 的得分率，关键字提炼能力则相对较弱，整体得分率仅为 51%。

核心结论 4: 头部企业呈现领先态势，文心一言得分率接近 ChatGPT

在 InfoQ 研究中心测评的十个模型中，ChatGPT-4 的综合能力位居第一，百度文心一言以 82.90% 的综合得分率位列榜单第二名。令人惊喜的是，文心一言的得分率与 ChatGPT 得分非常接近，仅仅相差 0.42%。

通义千问 V2.1.1、Bard2.0、讯飞星火 V3.0、Kimi Chat 网页版、百川大模型 V1.0、智谱清言网页版、360 智脑 4.0 以及豆包等八家模型在评测中均取得了不俗的成绩，得分率在 50%-70% 之间，展现了各自独特的优势和能力。然而，在众多国产大模型中，文心一言的综合表现尤为突出，不仅在中文语义理解、逻辑推理、代码编写、知识问答等基础能力上领先群雄，更在多模态处理等方面树立了国产大语言模型的新标杆。

核心结论 5：产品能力具有阶段性特征，产品间仍然存在时间差

2023 年 6 月前发布的多数产品已至少完成两次更新，其中文心一言升级至 4.0 版本、讯飞星火升级至 3.0 版本、通义千问升级到 2.1 版本。这些产品的对话基础能力已相当成熟，并正逐步深化进阶功能。它们在产品逻辑、编程及上下文处理能力上，显著领先于 6 月以后发布的产品。

自 6 月以来发布的产品，例如豆包、百川智能等，多数仍处于首个版本阶段，产品多数拥有一项或两项突出的能力，如常识对话（大部分产品）、视频脚本（豆包）、逻辑推理（百川智能和 Kimi Chat）等。但是从整体的综合能力考量，这些产品的综合能力相对较弱。

2024 年大模型市场预测

（一）大模型产品有望诞生新的超级应用

一方面，中国的大模型产品在娱乐、教育等大用户基数领域具有广泛的应用场景，未来有望在全民 AI 浪潮的推动下，快速聚集超级量级的用户规模。另一方面，中国在软硬件结合领域，特别是在强大的手机制造业基础上，展现了其独特优势，这为中国在软件领域的进一步发展奠定了坚实基础。无论是由硬件厂商还是软件厂商主导，大模型产品的合作将在 2024 年成为行业内显著的发展趋势，这不仅预示着行业未来的发展方向，也将塑造行业的未来格局。

（二）企业级需求落地将成为重要的行业风向

InfoQ 研究中心基于深入研究预测，2024 年，企业级需求的实际落地将引领大语言模型发展的行业新趋势。金融、教育、医疗和能源等关键行业内的众多企业已开始深刻认识到大模型产品的巨大价值，并积极推动其应用，以提升员工的工作效能。随着企业数字化转型步伐的加快，大模型产品在企业级市场的应用前景愈发广阔。

展望 2024 年，大模型企业级市场有望进入一个高速发展的新阶段。统计数据显示，生成式 AI 的开发者们已在办公、工业制造、教育以及金融等多个领域积极开展研发工作。值得一提的是，在办公场景中，大模型的应用已经变得非常普遍，而在不久的将来，工业制造、教育、金融以及社交等更多场景也将迅速跟进，共同推动大模型行业的全面升级与快速发展。