今日,中国人工智能企业深度求索(DeepSeek)与清华大学研究团队联合发布题为《奖励模型的推理时Scaling方法及其在大规模语言模型中的应用》的重磅论文,提出自我原则点评调优(SPCT)与元奖励模型(Meta Reward Model)两项核心技术,为提升大语言模型(LLM)的推理能力提供了全新方法论。这一成果被视为DeepSeek下一代推理模型R2的重要技术铺垫,引发全球AI界高度关注。
技术突破:从“训练时优化”迈向“推理时扩展”
传统大模型训练依赖强化学习(RL),通过调整参数优化模型性能,但其推理能力的提升常受限于固定架构。此次论文首次提出“推理时Scaling”概念,即在不改变模型参数的前提下,通过动态调整奖励机制实现性能跃升。
研究团队构建了DeepSeek-GRM系列模型,其核心创新在于:
- 自我原则点评调优(SPCT):模型在推理过程中实时评估自身输出的逻辑一致性和事实准确性,并基于反馈动态优化生成策略。
- 元奖励模型:引入多层级奖励评估体系,统一处理单响应、多响应及对比评分的复杂场景,显著提升模型在数学推导、代码生成等任务中的稳定性。
实验数据显示,该方法在GSM8K数学推理测试中准确率提升12%,代码生成任务的执行成功率提高19%。论文已在arXiv平台公开(https://arxiv.org/abs/2504.02495 ),代码与部分模型权重将逐步开源。
行业影响:低成本技术路径颠覆AI竞争格局
此次突破延续了DeepSeek“高效低成本”的技术路线。据披露,DeepSeek-GRM的训练成本仅为同类模型的1/5,其采用的FP8混合精度训练与多令牌预测技术,大幅降低了对算力的依赖。这与OpenAI等企业动辄上亿美元的开发成本形成鲜明对比。
值得关注的是,论文中提及的元奖励模型框架,可直接应用于现有大模型升级。清华大学人工智能学院教授沈阳评价称:“这不仅是方法论的创新,更为开源社区提供了可复用的工具链,有望加速全球AI技术民主化进程。”
R2模型猜想:技术铺垫还是发布前奏?
尽管论文未明确提及R2模型,但多项线索显示其关联性:
- 时间节点:论文发布恰逢此前传闻的R2计划发布时间(4-5月),且内容聚焦推理优化,与R2定位高度契合。
- 技术衔接:DeepSeek-GRM采用的负载均衡策略与知识蒸馏技术,与R1模型一脉相承,为其迭代奠定基础。
- 行业动态:OpenAI近期宣布将开源推理模型,被解读为应对DeepSeek技术压力的举措,侧面印证R2可能具备颠覆性潜力。
不过,DeepSeek官方尚未确认R2发布时间。3月11日,公司曾辟谣“3月17日发布R2”的传闻,表明其对产品节奏把控谨慎。分析人士推测,此次论文或是R2发布的“技术白皮书”,后续可能通过分阶段开源策略逐步推进。
中国AI崛起:从跟随者到规则制定者
此次合作凸显中国产学研协同创新的优势。清华大学在算法理论上的积淀,与DeepSeek工程化能力的结合,形成“理论-实践”闭环。值得关注的是,论文作者名单中近半数为华人研究者,且训练数据包含高质量中文语料,为中文场景优化提供独特优势。
市场层面,DeepSeek的崛起已引发连锁反应:
- 用户增长:其AI助手全球月活突破1.25亿,超越ChatGPT成为多国应用商店榜首。
- 资本震荡:英伟达股价因“算力需求下降预期”单日跌幅达17%,反映市场对高效模型的认可。
- 生态扩展:采用MIT许可证的开源策略吸引超20万开发者参与生态建设,涵盖医疗、金融等垂直领域。
未来:推理时Scaling的星辰大海
研究团队指出,下一步将探索三大方向:
- 多模态扩展:将推理时优化框架应用于图像、视频生成任务。
- 实时学习:在对话场景中实现“边推理边更新”的持续学习机制。
- 安全增强:通过元奖励模型动态拦截有害输出,解决大模型对齐难题。
正如论文结语所言:“当模型学会在推理中自我反思,我们离通用人工智能(AGI)又近了一步。”这场由中美技术竞赛推动的AI革命,正悄然改写全球科技权力版图。








财经自媒体联盟

4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有