【科技联播】从 ChatGPT 到 o1：OpenAI 如何再度引领 AI 变革_

这里是科技联播第 6 期。这期讲透一个新闻，OpenAI 新发布的 o1 模型。这很可能是 2022 年发布 ChatGPT 之后，OpenAI 第二次改变人工智能的发展方向。

出其不意的发布

北京时间 9 月 13 日凌晨，OpenAI 公布了他们最新的 AI 模型。不是 GPT-5 ，而是 o1。为了和以前的模型作出区别，凸显这次的改变特别巨大，他们放弃了之前一直用的 GPT 前缀，只用 o1 或 OpenAI-o1 表示，而不是 GPT-o1。

这次的发布非常突然，之前没有任何征兆。现在付费用户已经可以体验到 o1-preview（预览版）和 o1-mini（mini 版），满血版本还没有对外开放。

对于大众用户来说，o1 模型带来的改变，就像以前在和一个文科生对话，现在变成了和理科生对话。以前的模型，如果是用来做翻译、摘要、总结，完全可以代替一个普通的文秘。但是如果交给它比较复杂的数学题、物理题，那么它可能就会给出一份语言流畅但是错误百出的答案。

而拿类似的问题问 o1 ，它则会一步一步将思考和推理的过程呈现出来，计算的思路明显更加准确。

普通大众赞叹更多的，是 o1 在回答问题上的深思熟虑。但是很多专业人士，关注的则是一个叫Scaling Law的规律。这个词还没有确定的翻译，可以叫做“规模定律”或“规模缩放定律”。

Scaling Law：AI界的摩尔定律

Scaling Law 揭示了深度学习的能力和规模之间最根本规律，对于 AI 行业来说，它就类似于集成电路行业里的摩尔定律。

从 2019 年开始，这条规律就在指导着 AI 领域的发展，尤其是 OpenAI 更是它的忠实信徒。如果把 Scaling Law 看作是 AI 领域里的摩尔定律的话，那么 OpenAI 就是 AI 领域里的 Intel。

Scaling Law这个词来自于标度理论（Scaling Theory），是一个用于描述和预测复杂系统在不同规模下行为的理论框架。它最核心的内容是指出，在许多不同的系统中，这个系统的某个性能指标和它的规模呈现幂律关系。

比如在物理学中，一个系统在相变点附近，系统的某些物理量会随着系统规模的变化而呈现出幂律关系。在网络科学中，网络中的节点度分布往往遵循幂律分布；在生物学中，动物的代谢率与其体重之间也呈现幂律关系；在城市科学中，城市规模与城市的GDP、犯罪率、疾病传播等各种指标之间也是幂律关系。

在人工智能领域，Scaling Law 则是指一个模型的错误率和它的规模呈现幂律关系。并且这个幂律关系，不依赖于具体的模型和算法细节。

和摩尔定律一样，Scaling Law 也是从过往经验中总结出的经验规律。不过和摩尔定律不同，摩尔定律体现的是一个指数增长的规律，效能总是随着时间翻倍增加；Scaling Law 则是一个幂律下降的规律，效能的提高并不是和成本成比例，而是和成本的数量级成比例。也就是说，Scaling Law 是一个投入产出比非常差的规律，可即便这样，这也是深度学习模型可以达到的最好效果。

深度学习的 Scaling Law，最早是由百度硅谷研究院在 2017 年发表的一篇论文提出的，但这篇论文里只提到了模型的错误率和数据规模有幂律关系。

“Deep Learning Scaling is Predictable, Empirically”

从 GPT-3 到 GPT-4

真正让这个规律价值发挥出来的还是 OpenAI。OpenAI 在 2020 年 1 月发表了一篇论文。这篇论文指出，大语言模型的错误率不只和数据规模有幂律关系，和计算规模、参数规模也有幂律关系。

在这篇论文中，OpenAI 提到的规模最大的模型参数是 1.5B，也就是 15 亿，训练时间需要每秒千万亿次的设备计算 10 天，也就是 10 petafloat-day(PF-day)。在当时，这个设备大概需要 33 个英伟达的 V100 GPU。

如果模型扩大 100 倍，需要用到的训练时间是多少呢？很快，这个问题就有了答案。2020 年 6 月，OpenAI 公布了他们的 GPT-3，参数规模 175B。根据后来的估算，训练 GPT-3 大概花了 92 天的时间。而训练用的设备则是微软提供的超级计算机，其配备了 10000 个 V100 GPU。

这个数据继续遵循着 Scaling Law。

虽然这篇论文是 GPT-3 发布后的事后总结，但现实情况是，OpenAI 很可能在更早的时候就开始利用 Scaling Law 规划自己的发展。

就在 GPT-3 发布的前一年，OpenAI 打破了自己非营利组织的性质，转变为有限利润公司，而且也改变了模型的开源策略。尤其在 2019 年 7 月，微软向 OpenAI 投资 10 亿美元，双方在 Azure 云计算服务上训练最新的大语言模型，也就是 GPT-3。

这一次的战略调整可以说非常冒险，我们现在已经知道，这一次组织结构的变更，直接导致了 2023 年底 OpenAI 首席科学家伊利亚联合董事会罢免 CEO 奥尔特曼的“宫斗大戏”，险些导致 OpenAI 的分崩离析。而 OpenAI 不再开源的改变，也让 OpenAI 处于舆论的劣势，还被戏称为“ClosedAI”。

是什么让奥尔特曼下定决心做出如此大的改变？是什么帮助他决策出只需要 10 亿美元就可以训练出下一代大语言模型？又是什么让他对下一代模型的能力抱有信心？

现在来看，很可能就是 OpenAI 在 2020 年 1 月论文里提到的这个 Scaling Law 。

Scaling Law 和摩尔定律一样——在几十年的时间里，Intel 就是根据摩尔定律去预测下一代、下下一代产品的规模，然后去规划芯片的设计研发和晶圆厂发展计划的；在 AI 领域，Scaling Law 已经具备了类似的潜质，以 OpenAI 为主导的业内人士也会利用 Scaling Law 帮助自己去估计未来的投入和产出。在还没有真的把模型训练出来之前，就可以预测，如果想让模型达到某个想要的效果，至少需要多少显卡，可以释放多少股权、吸收多少投资。

Scaling Law 失效？

不过 Scaling Law 和摩尔定律也不同。摩尔定律持续了几十年，直到最近几年才有了摩尔定律将会失效的讨论。而对 Scaling Law 失效的讨论则来得有些早。2020 年 1 月，在 OpenAI 的论文中，错误率和规模的图像在对数坐标还看不到拐点（幂律图像在对数坐标中是一条直线）。这样还可以期待随着规模的增加，错误率可以逐渐接近 0。

但是仅仅过了 10 个月，2020 年 11 月，在 OpenAI 的另一篇论文中，Scaling 的有效性就迎来了挑战，图像模型、视频模型的错误率随着规模的增加，有一个无法消除的下限，而不是可以接近于 0。换句话说，规模增加对模型能力带来的影响是有天花板的。

不过，这篇论文给大语言模型还留下了一线希望，因为在大语言模型中还没有观察到明显的拐点。但是这并不代表着，大语言模型的收益可以随着规模的增加一直增加。

这是因为，在 2022 年 3 月份的时候，谷歌的 Deepmind 团队也发表了一篇论文，论文指出：即便是大语言模型，在规模无限大的时候，一定也有一个无法消除的下限。像 GPT-3 那样有千亿级别的参数规模，这个下限还不需要特别考虑，但是下一步是否规划更大规模的大语言模型、为了训练更大规模的模型而投入更多成本是否值得，这篇论文中并没有结论。

不知道 OpenAI 是否也有 Scaling Law 可能会失效的顾虑，GPT-3.5 的参数规模只有少量增加，从原来的 175B 提高到了200B 左右。GPT-3.5 更多的是优化了自然语言和代码的生成能力，也正是在此基础上，OpenAI 做出了第一个爆款应用 ChatGPT。

ChatGPT 的发布时间 2022 年 11 月 30 日，也成为了 AI 元年的开端，各大厂商纷纷入局开始布局自己的大模型。

在人们还没有来得及思考 Scaling Law 是否已在失效边缘的时候，OpenAI 在 2023 年 3 月就发布出了 GPT-4。尽管 OpenAI 没有公开 GPT-4 的技术细节，不过业内人士还是可以估计它的参数已经达到了 1000B 的规模。相比 GPT-3，GPT-4 的模型规模扩大了将近 10 倍，而训练花费则是增加了将近 100 倍。

在 GPT-4 的技术报告中，OpenAI 又再次强调：在训练 GPT-4 之前，他们就根据 Scaling Law 预测过模型的最终表现。而实际结果表明，他们的预测非常准确。

从 ChatGPT 到 GPT-4 只用了 3 个多月的时间，所以难免会让人产生期待，OpenAI 匹配 Scaling Law 的下一次升级可能很快就会到来。

不过让人失望的是，这期间只发布过不疼不痒的 GPT-4o，虽然中间也有内部项目 Q* 和“草莓”，就是 GPT-5 的流言，但是在 1 年多的时间里，OpenAI 的表现的确是让人失望。

寻找新增长模式

与此同时，其他厂商正在加快脚步追赶，先是有 Anthropic 公司的 Claude 3 Sonnet，后有 Meta 的 Llama 3。越来越多的大语言模型追赶上了 GPT-4 的性能。在这个过程中，GPT-4 为什么可以在规模如此巨大的情况下，依然能匹配 Scaling Law 的奥秘，也被逐渐发掘出来。如果仅仅是靠增加参数规模和堆积更多的训练算力，很难在 1000B 参数的规模下继续匹配 Scaling Law。

而 GPT-4 可以做到这一点，依赖于它在模型训练之外进行的优化。主要分为训练前（pre-training）和训练后（post-training）两部分。

“训练前”往往是指对数据的预处理，方便模型读取和理解。GPT-4 就引入了多模态功能，可以处理文本和图像输入，让训练的数据更加丰富。

“训练后”往往是指对模型的微调。GPT-4 就用到了“基于人类反馈的强化学习”（RLHF），减少了不当内容响应的概率，提高了生成事实性内容的能力。

但是，训练前和训练后的优化，可以带来的性能提升终究是有限的。否则 OpenAI 也不会超过 1 年时间没有继续公布新模型，而其他团队的模型即便超过了 GPT-4 也没有大幅领先。

很多业内人士都清楚，Scaling Law 或许还没到失效的地步，但是要想继续匹配 Scaling Law，就需要寻找到新的增长模式。

o1 思维链：AI 新增长模式？

o1 里的思维链（CoT）或许就代表着这个新增长模式。o1 发布之后，OpenAI 研究员 Noam Brown 在他的社交媒体上，就直接将其称为匹配 Scaling Law 的新范式。

OpenAI 研究员将思维链（CoT）称为匹配 Scaling Law 的新范式

思维链对于普通用户来说，就是让 AI 模型懂得了分步骤思考，每个步骤都可以通过反思的方式增加最终回答的准确程度。而增加了 AI 模型最终回答的准确程度，也就是提高了 AI 模型的能力。思维链之所以可以称为维持 Scaling Law 的新范式，是因为这部分能力的提升并不依赖模型的训练过程，而是依赖于一个模型在训练完成之后的推理过程（Inference）。

o1 之前的大语言模型规模增长，带来的主要成本是训练成本；而思维链则可以将传统的Training-Time Scaling 模式转化成 Inference-Time Scaling。