【科技联播】从 ChatGPT 到 o1:OpenAI 如何再度引领 AI 变革

【科技联播】从 ChatGPT 到 o1:OpenAI 如何再度引领 AI 变革
2024年09月21日 15:45 科学声音

这里是科技联播第 6 期。这期讲透一个新闻,OpenAI 新发布的 o1 模型。这很可能是 2022 年发布 ChatGPT 之后,OpenAI 第二次改变人工智能的发展方向。

出其不意的发布

北京时间 9 月 13 日凌晨,OpenAI 公布了他们最新的 AI 模型。不是 GPT-5 ,而是 o1。为了和以前的模型作出区别,凸显这次的改变特别巨大,他们放弃了之前一直用的 GPT 前缀,只用 o1 或 OpenAI-o1 表示,而不是 GPT-o1。

9 月 13 日,OpenAI 发布 o1 模型

这次的发布非常突然,之前没有任何征兆。现在付费用户已经可以体验到 o1-preview(预览版)和 o1-mini(mini 版),满血版本还没有对外开放。

对于大众用户来说,o1 模型带来的改变,就像以前在和一个文科生对话,现在变成了和理科生对话。以前的模型,如果是用来做翻译、摘要、总结,完全可以代替一个普通的文秘。但是如果交给它比较复杂的数学题、物理题,那么它可能就会给出一份语言流畅但是错误百出的答案。

当你向以前的模型提问“一个缝衣针的针眼里能平辅多少铁原子?”

而拿类似的问题问 o1 ,它则会一步一步将思考和推理的过程呈现出来,计算的思路明显更加准确。

当你向 OpenAI-o1 提问“一个缝衣针的针眼里能平辅多少铁原子?”

普通大众赞叹更多的,是 o1 在回答问题上的深思熟虑。但是很多专业人士,关注的则是一个叫Scaling Law的规律。这个词还没有确定的翻译,可以叫做“规模定律”或“规模缩放定律”。

Scaling Law:AI界的摩尔定律

Scaling Law 揭示了深度学习的能力和规模之间最根本规律,对于 AI 行业来说,它就类似于集成电路行业里的摩尔定律。

从 2019 年开始,这条规律就在指导着 AI 领域的发展,尤其是 OpenAI 更是它的忠实信徒。如果把 Scaling Law 看作是 AI 领域里的摩尔定律的话,那么 OpenAI 就是 AI 领域里的 Intel。

Scaling Law这个词来自于标度理论(Scaling Theory),是一个用于描述和预测复杂系统在不同规模下行为的理论框架。它最核心的内容是指出,在许多不同的系统中,这个系统的某个性能指标和它的规模呈现幂律关系。

幂律分布示意图(可见长尾效应)

比如在物理学中,一个系统在相变点附近,系统的某些物理量会随着系统规模的变化而呈现出幂律关系。在网络科学中,网络中的节点度分布往往遵循幂律分布;在生物学中,动物的代谢率与其体重之间也呈现幂律关系;在城市科学中,城市规模与城市的GDP、犯罪率、疾病传播等各种指标之间也是幂律关系。

在人工智能领域,Scaling Law 则是指一个模型的错误率和它的规模呈现幂律关系。并且这个幂律关系,不依赖于具体的模型和算法细节。

Scaling Law 示意

和摩尔定律一样,Scaling Law 也是从过往经验中总结出的经验规律。不过和摩尔定律不同,摩尔定律体现的是一个指数增长的规律,效能总是随着时间翻倍增加;Scaling Law 则是一个幂律下降的规律,效能的提高并不是和成本成比例,而是和成本的数量级成比例。也就是说,Scaling Law 是一个投入产出比非常差的规律,可即便这样,这也是深度学习模型可以达到的最好效果。

摩尔定律

深度学习的 Scaling Law,最早是由百度硅谷研究院在 2017 年发表的一篇论文提出的,但这篇论文里只提到了模型的错误率和数据规模有幂律关系。

“Deep Learning Scaling is Predictable, Empirically”

从 GPT-3 到 GPT-4

真正让这个规律价值发挥出来的还是 OpenAI。OpenAI 在 2020 年 1 月发表了一篇论文。这篇论文指出,大语言模型的错误率不只和数据规模有幂律关系,和计算规模、参数规模也有幂律关系。

大语言模型的错误率和数据规模、计算规模、参数规模有幂律关系

在这篇论文中,OpenAI 提到的规模最大的模型参数是 1.5B,也就是 15 亿,训练时间需要每秒千万亿次的设备计算 10 天,也就是 10 petafloat-day(PF-day)。在当时,这个设备大概需要 33 个英伟达的 V100 GPU。

如果模型扩大 100 倍,需要用到的训练时间是多少呢?很快,这个问题就有了答案。2020 年 6 月,OpenAI 公布了他们的 GPT-3,参数规模 175B。根据后来的估算,训练 GPT-3 大概花了 92 天的时间。而训练用的设备则是微软提供的超级计算机,其配备了 10000 个 V100 GPU。

这个数据继续遵循着 Scaling Law。

GPT-3 的曲线也遵循 Scaling Law

虽然这篇论文是 GPT-3 发布后的事后总结,但现实情况是,OpenAI 很可能在更早的时候就开始利用 Scaling Law 规划自己的发展。

就在 GPT-3 发布的前一年,OpenAI 打破了自己非营利组织的性质,转变为有限利润公司,而且也改变了模型的开源策略。尤其在 2019 年 7 月,微软向 OpenAI 投资 10 亿美元,双方在 Azure 云计算服务上训练最新的大语言模型,也就是 GPT-3。

这一次的战略调整可以说非常冒险,我们现在已经知道,这一次组织结构的变更,直接导致了 2023 年底 OpenAI 首席科学家伊利亚联合董事会罢免 CEO 奥尔特曼的“宫斗大戏”,险些导致 OpenAI 的分崩离析。而 OpenAI 不再开源的改变,也让 OpenAI 处于舆论的劣势,还被戏称为“ClosedAI”。

是什么让奥尔特曼下定决心做出如此大的改变?是什么帮助他决策出只需要 10 亿美元就可以训练出下一代大语言模型?又是什么让他对下一代模型的能力抱有信心?

现在来看,很可能就是 OpenAI 在 2020 年 1 月论文里提到的这个 Scaling Law 。

Scaling Law 和摩尔定律一样——在几十年的时间里,Intel 就是根据摩尔定律去预测下一代、下下一代产品的规模,然后去规划芯片的设计研发和晶圆厂发展计划的;在 AI 领域,Scaling Law 已经具备了类似的潜质,以 OpenAI 为主导的业内人士也会利用 Scaling Law 帮助自己去估计未来的投入和产出。在还没有真的把模型训练出来之前,就可以预测,如果想让模型达到某个想要的效果,至少需要多少显卡,可以释放多少股权、吸收多少投资。

Scaling Law 失效?

不过 Scaling Law 和摩尔定律也不同。摩尔定律持续了几十年,直到最近几年才有了摩尔定律将会失效的讨论。而对 Scaling Law 失效的讨论则来得有些早。2020 年 1 月,在 OpenAI 的论文中,错误率和规模的图像在对数坐标还看不到拐点(幂律图像在对数坐标中是一条直线)。这样还可以期待随着规模的增加,错误率可以逐渐接近 0。

错误率和规模的图像在对数坐标中看不到拐点

但是仅仅过了 10 个月,2020 年 11 月,在 OpenAI 的另一篇论文中,Scaling 的有效性就迎来了挑战,图像模型、视频模型的错误率随着规模的增加,有一个无法消除的下限,而不是可以接近于 0。换句话说,规模增加对模型能力带来的影响是有天花板的。

图像模型、视频模型的错误率并不可以接近于 0

不过,这篇论文给大语言模型还留下了一线希望,因为在大语言模型中还没有观察到明显的拐点。但是这并不代表着,大语言模型的收益可以随着规模的增加一直增加。

这是因为,在 2022 年 3 月份的时候,谷歌的 Deepmind 团队也发表了一篇论文,论文指出:即便是大语言模型,在规模无限大的时候,一定也有一个无法消除的下限。像 GPT-3 那样有千亿级别的参数规模,这个下限还不需要特别考虑,但是下一步是否规划更大规模的大语言模型、为了训练更大规模的模型而投入更多成本是否值得,这篇论文中并没有结论。

Deepmind 团队论文截图

不知道 OpenAI 是否也有 Scaling Law 可能会失效的顾虑,GPT-3.5 的参数规模只有少量增加,从原来的 175B 提高到了200B 左右。GPT-3.5 更多的是优化了自然语言和代码的生成能力,也正是在此基础上,OpenAI 做出了第一个爆款应用 ChatGPT。

ChatGPT 的发布时间 2022 年 11 月 30 日,也成为了 AI 元年的开端,各大厂商纷纷入局开始布局自己的大模型。

在人们还没有来得及思考 Scaling Law 是否已在失效边缘的时候,OpenAI 在 2023 年 3 月就发布出了 GPT-4。尽管 OpenAI 没有公开 GPT-4 的技术细节,不过业内人士还是可以估计它的参数已经达到了 1000B 的规模。相比 GPT-3,GPT-4 的模型规模扩大了将近 10 倍,而训练花费则是增加了将近 100 倍。

在 GPT-4 的技术报告中,OpenAI 又再次强调:在训练 GPT-4 之前,他们就根据 Scaling Law 预测过模型的最终表现。而实际结果表明,他们的预测非常准确。

从 ChatGPT 到 GPT-4 只用了 3 个多月的时间,所以难免会让人产生期待,OpenAI 匹配 Scaling Law 的下一次升级可能很快就会到来。

不过让人失望的是,这期间只发布过不疼不痒的 GPT-4o,虽然中间也有内部项目 Q* 和“草莓”,就是 GPT-5 的流言,但是在 1 年多的时间里,OpenAI 的表现的确是让人失望。

寻找新增长模式

与此同时,其他厂商正在加快脚步追赶,先是有 Anthropic 公司的 Claude 3 Sonnet,后有 Meta 的 Llama 3。越来越多的大语言模型追赶上了 GPT-4 的性能。在这个过程中,GPT-4 为什么可以在规模如此巨大的情况下,依然能匹配 Scaling Law 的奥秘,也被逐渐发掘出来。如果仅仅是靠增加参数规模和堆积更多的训练算力,很难在 1000B 参数的规模下继续匹配 Scaling Law。

Claude 3 Sonnet

而 GPT-4 可以做到这一点,依赖于它在模型训练之外进行的优化。主要分为训练前(pre-training)和训练后(post-training)两部分。

“训练前”往往是指对数据的预处理,方便模型读取和理解。GPT-4 就引入了多模态功能,可以处理文本和图像输入,让训练的数据更加丰富。

“训练后”往往是指对模型的微调。GPT-4 就用到了“基于人类反馈的强化学习”(RLHF),减少了不当内容响应的概率,提高了生成事实性内容的能力。

但是,训练前和训练后的优化,可以带来的性能提升终究是有限的。否则 OpenAI 也不会超过 1 年时间没有继续公布新模型,而其他团队的模型即便超过了 GPT-4 也没有大幅领先。

很多业内人士都清楚,Scaling Law 或许还没到失效的地步,但是要想继续匹配 Scaling Law,就需要寻找到新的增长模式。

李开复评价 Scaling Law

o1 思维链:AI 新增长模式?

o1 里的思维链(CoT)或许就代表着这个新增长模式。o1 发布之后,OpenAI 研究员 Noam Brown 在他的社交媒体上,就直接将其称为匹配 Scaling Law 的新范式。

OpenAI 研究员将思维链(CoT)称为匹配 Scaling Law 的新范式

思维链对于普通用户来说,就是让 AI 模型懂得了分步骤思考,每个步骤都可以通过反思的方式增加最终回答的准确程度。而增加了 AI 模型最终回答的准确程度,也就是提高了 AI 模型的能力。思维链之所以可以称为维持 Scaling Law 的新范式,是因为这部分能力的提升并不依赖模型的训练过程,而是依赖于一个模型在训练完成之后的推理过程(Inference)。

o1 之前的大语言模型规模增长,带来的主要成本是训练成本;而思维链则可以将传统的Training-Time Scaling 模式转化成 Inference-Time Scaling。

o1 概念图

在 o1 发布之后,英伟达的高级研究经理 Jim Fan 就直接将其称为 Inference-Time Scaling 范式。

英伟达高级研究经理将 o1 称为 Inference-Time Scaling 范式

训练完成之后的推理过程(Inference)大幅增长

o1 所带来的模式转化,不只是为 Scaling 找到了新增长模式,对算力的成本分配也会带来新的可能。

训练过程一定是在服务器端完成的,所以训练的算力成本一定是由模型的开发者全部承担;而推理过程可以在用户自己的手机和电脑上完成,这部分算力成本可以由用户承担。

当然,o1 这种依靠思维链的方式,是否真的代表着 AI 迎来了新增长模式,我们现在还只能做出期待,下结论还为时过早。相信后续会有更多研究,我们科技联播也会持续关注。

这就是本期为你带来的有关 Open AI 最新发布的 o1 模型的深度解读,希望你能有所收获,咱们下期再见。

- 互动话题 -

你认为 o1 模型的发布对人工智能领域意味着什么?

欢迎在留言里分享你的看法

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部