DeepSeek R2来了?联合清华大学发布推理时Scaling突破性论文

DeepSeek R2来了?联合清华大学发布推理时Scaling突破性论文
2025年04月04日 18:40 Ai科技网

今日,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)元奖励模型(Meta Reward Model)两项核心技术,为提升大语言模型(LLM)的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫,引发全球AI界高度关注。

技术突破:从“训练时优化”迈向“推理时扩展”

传统大模型训练依赖强化学习(RL),通过调整参数优化模型性能,但其推理能力的提升常受限于固定架构。此次论文首次提出“推理时Scaling”概念,即在不改变模型参数的前提下,通过动态调整奖励机制实现性能跃升。

研究团队构建了DeepSeek-GRM系列模型,其核心创新在于:

  1. 自我原则点评调优(SPCT):模型在推理过程中实时评估自身输出的逻辑一致性和事实准确性,并基于反馈动态优化生成策略。
  2. 元奖励模型:引入多层级奖励评估体系,统一处理单响应、多响应及对比评分的复杂场景,显著提升模型在数学推导、代码生成等任务中的稳定性。

实验数据显示,该方法在GSM8K数学推理测试中准确率提升12%,代码生成任务的执行成功率提高19%。论文已在arXiv平台公开(https://arxiv.org/abs/2504.02495 ),代码与部分模型权重将逐步开源。

行业影响:低成本技术路径颠覆AI竞争格局

此次突破延续了DeepSeek“高效低成本”的技术路线。据披露,DeepSeek-GRM的训练成本仅为同类模型的1/5,其采用的FP8混合精度训练与多令牌预测技术,大幅降低了对算力的依赖。这与OpenAI等企业动辄上亿美元的开发成本形成鲜明对比。

值得关注的是,论文中提及的元奖励模型框架,可直接应用于现有大模型升级。清华大学人工智能学院教授沈阳评价称:“这不仅是方法论的创新,更为开源社区提供了可复用的工具链,有望加速全球AI技术民主化进程。”

R2模型猜想:技术铺垫还是发布前奏?

尽管论文未明确提及R2模型,但多项线索显示其关联性:

  1. 时间节点:论文发布恰逢此前传闻的R2计划发布时间(4-5月),且内容聚焦推理优化,与R2定位高度契合。
  2. 技术衔接:DeepSeek-GRM采用的负载均衡策略与知识蒸馏技术,与R1模型一脉相承,为其迭代奠定基础。
  3. 行业动态:OpenAI近期宣布将开源推理模型,被解读为应对DeepSeek技术压力的举措,侧面印证R2可能具备颠覆性潜力。

不过,DeepSeek官方尚未确认R2发布时间。3月11日,公司曾辟谣“3月17日发布R2”的传闻,表明其对产品节奏把控谨慎。分析人士推测,此次论文或是R2发布的“技术白皮书”,后续可能通过分阶段开源策略逐步推进。

中国AI崛起:从跟随者到规则制定者

此次合作凸显中国产学研协同创新的优势。清华大学在算法理论上的积淀,与DeepSeek工程化能力的结合,形成“理论-实践”闭环。值得关注的是,论文作者名单中近半数为华人研究者,且训练数据包含高质量中文语料,为中文场景优化提供独特优势。

市场层面,DeepSeek的崛起已引发连锁反应:

  • 用户增长:其AI助手全球月活突破1.25亿,超越ChatGPT成为多国应用商店榜首。
  • 资本震荡:英伟达股价因“算力需求下降预期”单日跌幅达17%,反映市场对高效模型的认可。
  • 生态扩展:采用MIT许可证的开源策略吸引超20万开发者参与生态建设,涵盖医疗、金融等垂直领域。

未来:推理时Scaling的星辰大海

研究团队指出,下一步将探索三大方向:

  1. 多模态扩展:将推理时优化框架应用于图像、视频生成任务。
  2. 实时学习:在对话场景中实现“边推理边更新”的持续学习机制。
  3. 安全增强:通过元奖励模型动态拦截有害输出,解决大模型对齐难题。

正如论文结语所言:“当模型学会在推理中自我反思,我们离通用人工智能(AGI)又近了一步。”这场由中美技术竞赛推动的AI革命,正悄然改写全球科技权力版图。

7条评论|7人参与网友评论
最热评论
DeepSeek成本低这么多?英伟达要哭了,股价都跌成这样了
4月4日21:14举报回复
这论文看着挺厉害但真能做到吗?期待落地效果
4月4日21:14举报回复
这论文听着厉害但没提R2具体啥时候出,是不是画大饼?
4月4日21:14举报回复
最新评论
DeepSeek成本低这么多?英伟达要哭了,股价都跌成这样了
4月4日21:14举报回复
这论文看着挺厉害但真能做到吗?期待落地效果
4月4日21:14举报回复
这论文听着厉害但没提R2具体啥时候出,是不是画大饼?
4月4日21:14举报回复

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部