来源:AI科技大本营
文 | 王启隆
在当前火热的 AI 浪潮中,开源模型已经从几年前的“无人问津”变成了如今竞争不断。前有出道即霸榜 Hugging Face 的国产最强 Qwen2,后有英伟达老黄今天刚放出来的“开源巨兽” Nemotron-4 340B,之前说好要发布 400B 模型的“前任最强” Llama 3,现在如何了呢?
在北京智源大会 6 月 14 日下午的“大语言模型”分论坛上,Meta 研究科学家,Llama2、3 作者Thomas Scialom带来了一场关于大语言模型(LLMs)的过去、现在与未来的精彩演讲,以及随后的现场问答环节,涉及技术进展、应用前景及对行业未来的展望。
过去:OpenAI 和 DeepMind 螳螂捕蝉,Llama 黄雀在后。谁才能找到 Scaling Law 的秘密?
现在:随着 RLHF(基于人类反馈的强化学习)广泛使用,模型居然能在某些任务上超越人类,甚至展现出超人类的创造能力?
未来:智能体(Agent)概念深入人心,GPT-4o 为全球开发者指出了多模态应用的明路,那再下一步的具身智能会如何发展?
话不多说,以下为全文翻译:
过去
大家好,我是 Thomas Scialom,我的演讲将会大概讨论一下 LLMs 的过去、现在和未来。
首先,我们将聚焦于 LLMs 的近期历史,特别是 RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),以及我们对 Llama 的后训练(post-training)所做的工作,然后我会讲一讲自己对未来发展方向的一些看法。
但首先,我想暂停一下,思考一个问题:LLMs 发展的有多快?仅仅一年前,我们只有 Llama 2,而 ChatGPT 则是在一年半以前。科技发展速度如此之快,是前所未见的。这让我想到哲学家 Nick Bostrom(尼克·博斯特罗姆)说过的话:“一旦成功,就不再是 AI 了。”
我很喜欢这个定义。他这句话的意思是,我们可以根据一个 AI 消除了多少科幻元素来衡量其影响力。而当 AI 不再仅仅是科幻的时候,AI 就成了。我认为,在 ChatGPT 之后,历史上会出现一个转折点:AI 已经实现了,但它仍然在某种程度上保持着科幻色彩。
接下来进入正题,回顾一下大语言模型的历史。大语言模型其实是“基于 Transformer 架构的权重” + “我们以自监督方式训练的数据”,而训练它的主要目的是为了预测下一个词(next token prediction)。
因此,你可以通过增加权重或数据量来扩展模型。在 GPT-3 的论文中,OpenAI 实际上测量了规模的影响 - 此处的规模既包括扩大模型的规模,也包括通过增加批次大小或训练步数来扩大训练数据的规模。
他们发现,其中影响最大的是上图的这个蓝色区域 —— 模型的尺寸。于是他们全力以赴,将 GPT-3 的规模扩大了一个数量级,从不到十亿参数的 GPT-2 提升到了 1750 亿参数规模。
增加模型参数确实能带来直观的效果:在不改变其他条件,如保持同样的训练结果和数据集不变的情况下,仅通过增大模型规模,就能有效提升预测的准确性。这一点是我们对模型规模化共有的认知,通过这种方式,甚至可以在不进行任何精细化调整的情况下,获得一些专门模型的非 trivial(显著的)性能表现。因此,扩大模型权重成为了一种有效的方法。
但后来 DeepMind 出了一篇论文叫 Chinchilla,他们指出了这个分析存在一个问题 —— OpenAI 忽略了在训练过程中调整学习率调度器的重要性,导致对于小型模型的正确训练安排未能得到充分考虑。也就是说,实验设计有缺陷。
这篇论文的引人注目之处在于,DeepMind 之前还发布过一个叫 Gopher 的模型,参数量高达 2000 亿,超过了 GPT-3,且训练消耗了大量计算资源。而通过对小规模案例的深入分析,DeepMind 提出:在相同计算成本下,最优策略应该是训练一个参数量更小的模型 —— Chinchilla(约 700 亿参数),但同时使用更多数据进行训练。
这意味着,原先的计算资源分配并未达到最佳平衡,而 Chinchilla 模型的提出及其外推结果显示,相较于之前的策略,这种权衡方式能够显著提升性能。总而言之,DeepMind 找到了一个新的平衡点,即在权重(模型大小)和数据量之间找到最优配置,以最大化模型的性能表现。
但故事还没结束:通过 Llama 项目,我们提倡重新考虑计算优化的问题。从下面这张图表中可以看到,损失(loss)值随着参数增长在持续下降。
问题的核心在于,虽然我们能通过限定的计算资源来寻找并维持一个训练效果最优的平衡点,但这主要还是为了在学术论文中展现最佳性能成果。
然而,当我们的目标是让更多人,比如 Meta 所展望的那样,让数十亿用户能够实际应用这些模型时,推理阶段的效率与实用性便显得同等重要了。
因此,我们可以在数据和权重这两个维度上进行扩展,但在训练阶段两者之间存在一个理想的平衡点;而在推理阶段,权重越大意味着需要的计算资源越多,但数据量却是一个可以灵活调整且不影响推理时间的维度。你可以使用无限量的数据来训练模型,这对推理时间没有丝毫影响。从这种意义上说,我们对模型进行了一定程度的“过度训练”——即我们本可以用同样的计算资源获得更好的训练结果,但这样的做法使得在推理阶段,我们的模型变得非常小巧且极为高效。
这就是 Llama 系列模型的理念,它使得 Raspberry Pi(树莓派)这样相对低端的设备上也有可能运行 GPT-3 级别的模型。现在我们有 Alpaca、vLlama 这样的一系列旧模型,这些模型累计下载量已超过 5000 万次。
记得在 Llama 1 发布时,人们甚至还要求我们公开权重文件 ↓
请记住:一年以前还没有开源的基础模型,只有 GPT。所以发展速度真的很快。
现在
我们后来很快推出了 Llama 2,它基本上在预训练规模上与 Llama 1 类似,只是增加了更多的 token,同时在我们开发的后训练阶段增加了指令跟随对齐,其中包括 SFT(Supervised Fine-Tuning, 监督微调)和 RLHF。接下来我会具体介绍一下 Llama 2 —— 哦对了,我们很快会发布一篇关于 Llama 3 的论文。
什么是 SFT?这是一种基本的方法,用以训练模型以对齐指令。我们会先给出一个提示,然后请注释者编写并创建它。为此,我们投入大量资金和人力,创作出各种有趣的提示,比如要求他们写一首诗,这首诗能帮助人记忆元素周期表的前 10 个元素,且每个元素都有对应的在线信息。
我不确定自己在这方面能比他们做得更好。实际上,设计这样的任务既困难又有挑战性。此外,注释者的任务还包括编写理想情况下期望模型回答的内容。然后我们会用这些数据微调我们的模型,并收集大量的指令。
另一种方法称为人类偏好注释(Human Preference Annotation),用于训练奖励模型,然后进行类似 RLHF 的操作。在这种方法中,注释者只需编写提示,我们利用模型生成两个答案 —— 注释者不需要编写答案,只需选择他更喜欢的答案。
显然,这比编写答案的成本低十倍,因为编写答案通常非常耗时。当我们开始这个项目时,我曾一度认为 SFT 才是黄金标准,但考虑到时间限制、截止日期和有限的预算,我们可能会在某个时候选择人类偏好注释这种方法。这是我最初的理解。
可以看到,通过训练不同规模的奖励模型(reward model)并使用越来越多的数据,我们不断提高了奖励模型的准确性。
那么,什么是奖励模型?它只是一个接受两钟输入——提示和答案,并给出标量分数的模型。然后我们可以判断哪个答案的分数更高。因此,奖励模型实际上做的就是分类任务。
当我们使用这个奖励模型时,我们可以利用它来改进我们的答案,并使用强化学习训练我们的模型。下面是我们开发的一个算法直观解释,称为拒绝采样(Rejection Sampling)。你可以提供一个提示并从一个到十个或更多样本中抽样。
你会看到,如果取奖励的中位数,它会是稳定的,没有变化,这就是图中的橙色线。但如果取奖励分数的最大值,也就是我们使用训练好的奖励模型对每个样本进行评分,那么每增加一个新样本,我们就有更多机会抽到比之前更高的奖励。所以最高奖励也是稳定的。
中间的橙色区域,其实旧是通过强化学习循环利用奖励分数改进的潜力。如果我们训练的模型在获得最高奖励的样本上,我们应该能从中位奖励推向下一个模型的最高奖励,从而提高平均奖励分数。
起初,我们借助高度专业化的科学模型,起点较低,但持续不断地取得了进步。显然,我们的模型在特定评判标准下表现更优,因为那些奖励模型仅根据我们自己的数据分布和协议进行训练,与 GPT-4 可能存在差异。我深有感触的是,即使依据 GPT-4 的标准来评判,最终我们的模型也被认为明显优于 GPT-4,胜出比例超过 50%。
从另一个视角来看,我们每一轮都在尝试调整数据的分布形态。想象一下:我们手头有许多提示语句和对应样本,通过评估这些样本的得分,并分析它们的奖励分布情况。初期,样本的得分混杂不一,我们的目标是在每个迭代阶段减少低分样本的数量,并促使它们的得分向右偏移,即朝着满分靠近。我们正是通过多次迭代和优化循环达成了这一目标。
此外,我想分享一个有趣的现象:我们意外地发现了模型具备时间感知能力。仅需设定特定日期和知识截止点(即模型学习的终止时间),我们就能使模型按时间顺序动态调整答案内容,这点让人非常惊喜。
比方说,我告诉模型:“你的训练知识停留在了 1940 年以前。”,他就真的会装作不知道1940 年之后的事情。如果再问它:“谁赢得了第二次世界大战?” 它会回答:“我不知道。因为我的知识停留在了 1940 年以前。”
同理,如果你现在问它:“地球是平的还是圆的?” 知识水平在 2023 年的模型会告诉你:“结合 GPS 等技术,我们现在可以确定地球是圆的……” 但如果把知识限制在公元 852 年以前,他就会回答:“我不太确定。有很多人怀疑地球是平的……”
未来
下面,我想解释 RLHF 背后的真正魔力是什么。
一开始,我认为超级智能微调在质量上会更胜一筹,毕竟人类的写作水平普遍高于机器。我们无法让模型接受那种针对人工编写的训练,那就像让机器去生成内容一样。
但现在,让我们思考这样一个问题:写一首关于大语言模型的俳句。给大家 5 秒钟时间思考,找出答案。
坦白说,我在这方面很糟糕,也许你们有人比我做得好。但对于人类来说,要给出一个创意答案其实非常难。而我们的模型瞬间就能生成这样的内容:
硅芯最深处
In silicon halls
语言巨兽栖于此
Linguistic leviathans dwell,
慧根悄然生
Wisdom's spawn they are.
这比大多数人类所能创作的都要出色。项目初期我们发现,只需极少量的监督微调数据,我们的模型就已经超越了普通标注员的平均水平。RLHF(基于人类反馈的强化学习)真正的魔力在于,模型的能力已经达到了超人类的水平。
另外,这并不是因为我相比人工智能更不擅长写诗,而是我更擅长评判质量。我们多数人都不是毕加索那样的画家,但我们能够辨别佳作与拙作。我们具备区分好坏答案的能力,即便自己不一定能写出好的答案,而这正是 RLHF 的魔力所在。
因此,我认为 RLHF 实际上不仅仅关乎强化学习,甚至不仅仅是关于人类反馈。在我看来,创造出超越人类水平的文字内容,关键在于人和 AI 的默契配合。未来我们可能会探索新招数,以不同方式让人机协作更紧密,但这都是为了训练出更高质量的下一代模型服务。其实我们已经挺进这个阶段了,现在提到“多模态输入输出”,GPT-4.0 已经给我们指了条明路,趋势很明显。
如今,从某种程度上说,我们已经解决了语言建模这一任务,尽管我们仍可能观察到一些进步 —— 请别误会,我并不是说一切问题都已彻底解决,但我们的技术水平确已达到运作良好的阶段,这有赖于预训练与后训练的结合。接下来的进化,就是要整合更多样化的内容,无论任何形式的信息,不论是图片、声音还是视频,都能自如处理,我们正逐步向这个目标靠近。
同时,关于“智能体”(Agent)这个概念的研究也火起来了。我的想法是,智能体可以构成一个系统,包含规划模块、记忆模块及围绕这些核心功能的协调机制,这一切的实现得益于前代语言建模任务的攻克,以及多模态输入输出技术的融合。因此,智能体研究正在层层递进,一步步解锁新一代技术,不再是简单地生成文字、根据文字反馈得分了。
模型过去仅限于文本交流,但有了智能体,它便能在数字世界中立足,能执行代码并观测环境反馈。一旦代码出错或出现漏洞,模型能够识别并作出响应。当模型缺乏信息时,它能上网搜索,获取信息并自我完善,自我修正。有时模型认为某事件发生,上网核验后会发现自己“哦,我错了”或“我是对的”,据此调整自身权重。因此,语言模型不再是封闭运作。
未来,机器人将会兴起,我们正日益频繁地目睹相关成果。Hugging Face 刚发布了针对此领域的开源库,且相关成本正逐年呈指数级降低 —— 成本曾是主要的限制因素。随后,自然而然的一步是将我们的智能体实体化,使其融入物理世界,提供更为坚实的实践基础。
是的,这正是我认为的前进方向,这趋势很明显,就跟科技发展的必然规律似的,算得上是最容易预测的未来趋势之一。而那些在十倍、百倍增强的计算能力上训练的模型,将会取得更高水平的成果,这是一个明确的趋势,如同人口统计学规律一样,是我们能够最为确定的发展法则之一。
然而,我认为这十年的人工智能教会了我们 —— 从 AlphaGo 的惊艳亮相,到 ImageNet 竞赛催化下模型从识别猫狗这类基础任务,迅速跃升至攻克围棋难关,再到如今的模型已具备接近乃至超越人类的理解力,在特定领域内生成文字 —— 这些模型在数学难题和逻辑推理上接连取得突破,也许还未达到世界上最佳数学专家的水平,但远超我们大多数人所能及。
这一路上,我们有很多突破,无论是预期还是意外的。随着越来越多的新人加入我们的这个新兴领域(对,这个领域还很年轻,事实上,全世界所有历史上从事过 AI 研究的研究人员现在都还在世),可以预见,未来还将迎来更多意想不到的创新。至于那会是什么?坦白说,我也不得而知。
或许,通用人工智能(AGI)会是我们这一代的哥白尼革命。就像当初人类发现地球其实没什么特别的,只是一个围绕普通恒星旋转的普通行星,位于一个普通星系中 —— 未来的人可能也会觉得,智能不算什么疯狂的革命,就是一堆矩阵运算罢了。
问与答
提问者:我想从商业角度提问。你如何看待 Llama 未来五到十年的发展?你们会做 AI 机器人吗?或者是有更大的野心?
Thomas:这确实是个好问题。我或许可以预测一年左右的发展,但预测未来十年就太难了。就现在来说,Meta 对 Llama 的愿景是朝着 AGI 发展,这是我们主要的投入方向。
我们目前基于 Llama 推出了一些项目,其中一个是 Meta Live,你可以把它视为免费的 ChatGPT,它目前已在美国的 Messenger、Instagram 和 WhatsApp 上推出,很快将扩展到其他国家。
此外,我们已经开始将其应用到像 Ray-Ban(一个太阳镜品牌)这样的产品上,我认为这种设备未来有可能部分取代手机,它是一种内置摄像头、声音传感器的眼镜,你可以通过它们与助手实时交流,助手能看到你所看见的,听到你所说的,同时利用其强大的智能体能力,拥有计算和音频信息数据,让你拥有一个口袋里/眼镜上的“贾维斯”(《钢铁侠》电影中的人工智能助手)。
我个人对此非常兴奋,这是个重要的趋势,且我将亲自参与其中。但我确实很难预测五年或十年后的方向,以及这些产品对企业的影响会有多大。
我给企业的建议是,不要站在这个技术的对立面。不要建立一个业务来弥补现有模型的不足,而是创建一个能从下一代模型中受益的业务。
提问者:你刚刚提到 Llama 的眼镜或智能设备。尽管如此,我认为这种模型在当前设备上的能力仍然相当有限。从长远来看,Llama 对于将这类大语言模型真正应用于智能设备有什么看法呢?你们的下一步是什么?
Thomas:Meta 已经与 Ray-Ban 建立了合作关系,并且已经发布了搭载 Llama 功能的最新款 Ray-Ban,效果还不错。预计随着我们更好的模型和代理工作的推进,未来一个月我们将快速取得进一步进展。
我认为你的问题中暗示了一个非常有影响力的方向和开放的研究问题:虽然 Scaling Law 显然有效,但与智能体进行几乎即时的交互是可能的吗?万亿参数、甚至更大十倍的模型能否实现这一点?这里面还有很多工作要做,但如果能实现的话无疑是很棒的。
提问者:从 Llama 2 开始,你们团队似乎采用了一种被称为“拒绝采样”的新对齐方法。你能详细说明一下为什么以及如何决定采用这种方法吗?
Thomas:归根结底,重要的是进行迭代。每一轮我们都会收集数据,并用更好的模型进行新的标注。因此,每一轮的关键是使用更好的模型。这是最重要的。
在每一轮中,我们希望充分调整数据分布,基本上就是有了新数据后,训练一个新的奖励模型,并进行分布调整。我们不太在意性能提升的 5%,因为我们会继续用新数据进行标注,然后不断重复这个过程。所以方法的可扩展性和稳健性非常重要。
虽然我们现在在做一些更复杂的在线工作,效果也更好,但我并不是说我们不应该这样做。当我们开始做 Llama 2 时,我们必须非常积极地推进。你可以选择得分最高的数据,把它作为监督数据来训练模型,尽管它是由模型生成并选择的,但可以像人类编写的一样使用。所以,如果你想的话,可以用 70B 来训练 30B,或是 30B 训练 7B。
提问者:鉴于 Llama 在科研领域的广泛应用,特别是围绕推理能力的探讨,你认为语言模型未来能否进化到能够泛化推理,真正接近人类的思维方式呢?毕竟,即便当前的模型在高水准训练下,解决特定任务时还是偶尔露出破绽。你对此有何见解?
Thomas:我愿意分享我的初步想法,但请注意 —— 这是一个业界尚未破解的谜题。回溯至两三年前,比如 GPT-2 的时代,我们关注的焦点还只是如何让模型连贯地组合词语。而今,随着模型规模的不断扩大,之前的难题已迎刃而解,推理能力也提升到了新的高度,比如数学基准 GSM84 已被攻克。数学领域更是取得了突破,谷歌的一项研究表明,特定的专家模型已逼近 90% 的准确率,几乎圆满解决问题。
我认为,通过持续扩大规模、优化合成方法,并结合创新策略 —— 如结合蒙特卡洛模拟及模型自我迭代优化等新研究,这些途径叠加起来,加之更智能化的方法和高质量的数据,推理能力的提升将逐步成为现实。
提问者:我的理解是,即使某模型在特定基准测试上表现卓越,一旦我们微调任务场景,尽管相似,模型的局限性依然会显露,仿佛它更多是在模拟而非独立推理。
Thomas:其实,我对此有不同的看法。确实,从前 60% 提升至 70% 的进展显著,而当你稍稍调整测试范围,模型的表现就会下滑,这似乎验证了你的观点。然而,若回顾那些已达 95% 饱和度并视为已解决的旧一代基准,你会发现,哪怕你变换花样,只要难度相当,这些测试模型依旧游刃有余,显示出了强大的适应性和稳定性。整个探索过程充满了挑战与惊喜,每一次进步后,新的调整又会让模型表现波动。正是这样的反复尝试,促使研究者们应对各种极端情况,从而拓宽了语言模型的学习范畴,促进了其内在潜能的跨领域泛化。
提问者:我对你在演讲中提到的「RLHF 背后的魔力」非常感兴趣。你举了一个关于大语言模型的诗的例子。你说这可能比人类生成的答案更好。但我对此表示怀疑,因为判断一首诗的标准并不固定,而且大模型今天被训练成可以重新组合 token。
但我的问题是,从数据角度来看,要真正实现超越人类的表现,如果我们使用最先进的模型架构和训练范式,我认为仅靠人类生成的数据是不够的。那么,真正实现大模型的超人表现的关键是什么?是合成数据,还是你提到的结合 AI 和人类的方法?或者我们需要突破性的结构或新的训练范式?
Thomas:谢谢。首先,我认为我们用来训练模型的拒绝采样输出已经是模型生成的纯合成数据。再回到我讨论的 RLHF 的魔力,或许可以用医疗诊断而不是创造性任务来理解。
假设你有一个病人,你看到症状并进行诊断。如果你收集诊断的分布,有研究表明这样可以理解 RLHF 的好诊断和坏诊断。如果你从这个分布中采样,会有很多好的结果,但也有一些坏的。如果你让医生来判断诊断是否正确,尽管他们会犯一些错误,但通过偏好判断他们可以说“这个诊断比那个好”。因此,你基本上可以消除所有人类的错误,甚至超越人类最好的诊断,就像我之前提到的,比起写诗或画画,我更擅长评判它们。
继续回答你的问题,这表明人类本身不如推动机器的人类,而且我们已经可以创造出超越人类的机器来自我批评和改进。你不能形成自我改进的循环,因为你处于孤立状态。我认为这不是一个可行的方向。但如果你通过一些工具使用,环境中的基础和其他方法,例如用于解码的蒙特卡罗树搜索,增强大模型超越其自身的权重,使得生成比模型本身更好。得益于这种基础,那么或许可以有一个更好的自我改进循环,减少人类的参与。
提问者:Llama 3 在很多模型能力方面已经非常出色。那么,对于 Llama 3 还有哪些可以进一步提升的地方?Llama 4 或其他改进版本的计划是怎样的?
Thomas:(沉默了很久)我们会先完成对 Llama 3 的开发,这还在进行中。
Llama 3 目前进展顺利,能力提升了很多,我们做得更好了。不过,我认为还有很多可以改进的地方,我们会继续努力。
关于 Llama 4,目前还没有具体的计划记录。我认为可以这么回答你:Llama 4 应该是一个飞跃,这种飞跃可以在很多方面体现,比如能力、模态、后训练处理数百万约束的能力、预训练规模,赋予模型更多功能。有很多可能性,当然还有智能体。所以对 Llama 4,我们有很多思考的方向,但我现在还不确定,我真的还不确定。我能保证的是,我们会努力不仅逐步提升,而且也会将它提升到一个新的水平。
由 CSDN 和 Boolan 联合主办的「2024 全球软件研发技术大会(SDCon)」将于 7 月 4 - 5 日在北京威斯汀酒店举行。
由世界著名软件架构大师、云原生和微服务领域技术先驱 Chris Richardson 和 MIT 计算机与 AI 实验室(CSAIL)副主任,ACM Fellow Daniel Jackson 领衔,BAT、微软、字节跳动、小米等技术专家将齐聚一堂,共同探讨软件开发的最前沿趋势与技术实践。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有