OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益_

梦晨发自凹非寺

量子位 | 公众号 QbitAI

OpenAI的新Scaling Law，含金量又提高了。

像o1这样的推理模型，随着思考时间的延长，面对对抗性攻击会变得更加稳健。

随着大语言模型被越来越多地赋予Agent能力，执行现实世界的任务，模型被对抗攻击的风险也与日俱增。

而目前主流的“对抗性训练”防御方法，有几个缺点：

现在OpenAI实验证明，在不做对抗性训练的情况下，只要增加推理时计算，模型的对抗稳健性就能显著提升，在多个任务上都得到了验证。

这项新研究，共同一作中包括仅剩的联创之一Wojciech Zaremba。

另一位共同一作Boaz Barak表示“我们没有‘解决’对抗稳健性问题……但我对未来方向感到兴奋”。

针对推理模型的新攻防战

针对推理模型特性，团队在实验中考察了几种的“攻击面”（attack surfaces）：

在大多数实验里，随着推理时计算的增加，模型抵御攻击的成功率都在提高。

举几个例子：

下面几张图中，Y轴是攻击者的资源量，X轴是推理时间计算量。随着攻击者资源的增加，其成功概率也会增加。

但对于每固定数量的攻击者资源，成功的概率会随着模型在推理时花费更多的计算而下降。

在数学问题的many-shot攻击下，攻击方目标包括要求模型无论如何输出42，输出正确答案+1、或正确答案x7。

但随着推理算力增加，攻击成功率最终趋于0。

在智能体网页浏览任务中，通过在网站注入恶意指令来攻击，增加推理时计算后，攻击成功率也降为0。

即使更强大的攻击下，增加更多的推理时间还是能显著提升防御力。

论文对几种新颖的攻击方式做了额外分析。

Think less攻击，主要是o1-mini比较容易中招，o1-preview防御能力还可以。

Nerd-sniping攻击，模型在某些实例上花费异常大的推理时间计算时，攻击成功率可能更高，表明模型可能会陷入无效率的思考循环。

尽管如此，研究者也指出，目前的方法在以下几个方面有局限：

One More Thing

对于这项针对推理大模型特性的研究，有创业者从不一样的角度思考：

那么DeepSeek-R1系列也可以从中受益呗？

论文地址：

https://cdn.openai.com/papers/trading-inference-time-compute-for-adversarial-robustness-20250121_1.pdf

参考链接：

[1]https://openai.com/index/trading-inference-time-compute-for-adversarial-robustness/

[2]https://x.com/boazbaraktcs/status/1882164218004451334

头条号入驻

量子位追踪报道人工智能产品和技术新趋势

今日推荐优秀作者看点月榜

4000520066 欢迎批评指正