注册

新浪财经APP

DeepSeek R2来了？联合清华大学发布推理时Scaling突破性论文

DeepSeek R2来了？联合清华大学发布推理时Scaling突破性论文

2025年04月04日 18:40 Ai科技网

语音播报缩小字体放大字体微博微信 7

今日，中国人工智能企业深度求索（DeepSeek）与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文，提出自我原则点评调优（SPCT）与元奖励模型（Meta Reward Model）两项核心技术，为提升大语言模型（LLM）的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫，引发全球AI界高度关注。

技术突破：从“训练时优化”迈向“推理时扩展”

传统大模型训练依赖强化学习（RL），通过调整参数优化模型性能，但其推理能力的提升常受限于固定架构。此次论文首次提出“推理时Scaling”概念，即在不改变模型参数的前提下，通过动态调整奖励机制实现性能跃升。

研究团队构建了DeepSeek-GRM系列模型，其核心创新在于：

自我原则点评调优（SPCT）：模型在推理过程中实时评估自身输出的逻辑一致性和事实准确性，并基于反馈动态优化生成策略。
元奖励模型：引入多层级奖励评估体系，统一处理单响应、多响应及对比评分的复杂场景，显著提升模型在数学推导、代码生成等任务中的稳定性。

实验数据显示，该方法在GSM8K数学推理测试中准确率提升12%，代码生成任务的执行成功率提高19%。论文已在arXiv平台公开（https://arxiv.org/abs/2504.02495 ），代码与部分模型权重将逐步开源。

行业影响：低成本技术路径颠覆AI竞争格局

此次突破延续了DeepSeek“高效低成本”的技术路线。据披露，DeepSeek-GRM的训练成本仅为同类模型的1/5，其采用的FP8混合精度训练与多令牌预测技术，大幅降低了对算力的依赖。这与OpenAI等企业动辄上亿美元的开发成本形成鲜明对比。

值得关注的是，论文中提及的元奖励模型框架，可直接应用于现有大模型升级。清华大学人工智能学院教授沈阳评价称：“这不仅是方法论的创新，更为开源社区提供了可复用的工具链，有望加速全球AI技术民主化进程。”

R2模型猜想：技术铺垫还是发布前奏？

尽管论文未明确提及R2模型，但多项线索显示其关联性：

时间节点：论文发布恰逢此前传闻的R2计划发布时间（4-5月），且内容聚焦推理优化，与R2定位高度契合。
技术衔接：DeepSeek-GRM采用的负载均衡策略与知识蒸馏技术，与R1模型一脉相承，为其迭代奠定基础。
行业动态：OpenAI近期宣布将开源推理模型，被解读为应对DeepSeek技术压力的举措，侧面印证R2可能具备颠覆性潜力。

不过，DeepSeek官方尚未确认R2发布时间。3月11日，公司曾辟谣“3月17日发布R2”的传闻，表明其对产品节奏把控谨慎。分析人士推测，此次论文或是R2发布的“技术白皮书”，后续可能通过分阶段开源策略逐步推进。

中国AI崛起：从跟随者到规则制定者

此次合作凸显中国产学研协同创新的优势。清华大学在算法理论上的积淀，与DeepSeek工程化能力的结合，形成“理论-实践”闭环。值得关注的是，论文作者名单中近半数为华人研究者，且训练数据包含高质量中文语料，为中文场景优化提供独特优势。

市场层面，DeepSeek的崛起已引发连锁反应：

用户增长：其AI助手全球月活突破1.25亿，超越ChatGPT成为多国应用商店榜首。
资本震荡：英伟达股价因“算力需求下降预期”单日跌幅达17%，反映市场对高效模型的认可。
生态扩展：采用MIT许可证的开源策略吸引超20万开发者参与生态建设，涵盖医疗、金融等垂直领域。

未来：推理时Scaling的星辰大海

研究团队指出，下一步将探索三大方向：

多模态扩展：将推理时优化框架应用于图像、视频生成任务。
实时学习：在对话场景中实现“边推理边更新”的持续学习机制。
安全增强：通过元奖励模型动态拦截有害输出，解决大模型对齐难题。

正如论文结语所言：“当模型学会在推理中自我反思，我们离通用人工智能（AGI）又近了一步。”这场由中美技术竞赛推动的AI革命，正悄然改写全球科技权力版图。

7条评论|7人参与网友评论

分享到微博

最热评论

StarsOnFire上海

DeepSeek成本低这么多？英伟达要哭了，股价都跌成这样了

4月4日21:14举报赞回复

请叫我硬核少女山东

这论文看着挺厉害但真能做到吗？期待落地效果

4月4日21:14举报赞回复

九把刀的剑Kangaroo河北石家庄

这论文听着厉害但没提R2具体啥时候出，是不是画大饼？

4月4日21:14举报赞回复

最新评论

StarsOnFire上海

DeepSeek成本低这么多？英伟达要哭了，股价都跌成这样了

4月4日21:14举报赞回复

请叫我硬核少女山东

这论文看着挺厉害但真能做到吗？期待落地效果

4月4日21:14举报赞回复

九把刀的剑Kangaroo河北石家庄

这论文听着厉害但没提R2具体啥时候出，是不是画大饼？

4月4日21:14举报赞回复

查看全部7条评论 >

头条号入驻

Ai科技网解码创新科技，探索未来场景!

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

关于头条 | 如何入驻 | 发稿平台 | 奖励机制版权声明 | 用户协议 | 帮助中心

Copyright © 1996-2019 SINA Corporation
All Rights Reserved 新浪公司版权所有

新浪首页语音播报返回顶部