DeepSeek发布推理大模型，性能对标OpenAI o1_

日前，DeepSeek（深度求索）方面发布全新推理大模型DeepSeek-R1正式版，并采用MIT许可协议，支持免费商用、允许任意修改和衍生开发、可支持进行二次蒸馏训练等。目前登录DeepSeek官网或官方App、打开“深度思考”模式，即可免费调用DeepSeek-R1完成各类推理任务。

对此英伟达高级研究科学家 Jim Fan表示，“我们正生活在一个特殊的时代：一家非美国公司在真正践行着 OpenAI 最初的使命——开展真正开放的前沿研究，为所有人赋能。这看似不合常理，但最富戏剧性的往往最可能发生”。

根据DeepSeek公布的相关信息显示，DeepSeek-R1在数学、编程和推理等多个任务上，达到了与OpenAI-o1-1217模型相当的表现。例如DeepSeek-R1在AIME2024获得了79.8%的成绩、略高于OpenAI-o1-1217的79.2%，在MATH-500中DeepSeek-R1获得97.3%的成绩，略高于OpenAI-o1-1217的96.4%，并明显优于其他模型。而在编码相关的任务中，DeepSeek-R1在Codeforces上获得2029 Elo评级，优于96.3%的人类参与者。

与DeepSeek上月发布的大模型DeepSeek-V3相比，DeepSeek R1在AIME2024和Codeforces中的得分提升了近一倍，其余项也均有不同程度的提升。

面对这一成绩，DeepSeek方面解释到，DeepSeek R1后训练阶段中大规模使用了强化学习（RL）技术，在仅有极少人工标注数据的情况下，极大提升了模型推理能力。这也就意味着该模型几乎跳过了监督微调（SFT）步骤，就实现了推理能力自我提升。

值得一提的是，在API定价方面，DeepSeek R1 API服务对输入token收取0.55美元/百万、输出token收取2.19美元/百万，而OpenAI-o1-1217的收费则分别为15美元/百万和60美元/百万，价格相差近30倍。

【本文图片来自网络】