译者 | 杨雷
基础模型的意义在于突现性和均质性,下游任务通过对基础模型的微调,可以实现意想不到能力提升,基础模型带来的灵活性可以帮助加速突破性的医学研究、科学进步、工程制造等。本文对基础模型的现在与未来面临的问题进行了探讨。
学习一门新语言时,最简单的入门方法便是做填空练习,例如“It's raining cats and ...”。
通过犯错并改正错误的方式,人的大脑会从中发现语法、词汇和单词序列中的模式(语言学家们认为这是学习语言的基本方法)——这不仅可以用于填空,还可以用来向其他人(或计算机、狗等)传递信息。
在谈论“基础模型”之前,我们应该知道,这个话题目前是人工智能领域最热门(但报道不足)的话题之一。
根据2021年的一篇综述论文所述,基础模型是“在大规模的数据(通常使用大规模自监督方式)上训练的,可以适用于广泛的下游任务。”
在非学术语言中,就像学习填空练习一样,基础模型以一种以后可以应用于其他任务的方式学习事物,这是使它们比当前的 AI 模型更灵活的原因。
为什么基础模型不一样?
训练基础模型的方式解决了人工智能领域中最大的瓶颈之一:数据标记。
当网站要求(为了证明你不是机器人)你选择“所有包含船的图片”时,你实际上是在打标签。然后,这个标签可以用来为算法提供船只的图像,这样算法就可以在某种程度上可靠地识别船只。这也是传统上训练人工智能模型的方式:使用人工标记的数据。这是一个耗时的过程,需要很多人来标记数据。
基础模型不需要这种类型的标签。他们不依赖人工的标注,而是使用填空法和自生反馈来不断学习和提高能力,无需人工监督。
对于尚未拥有广泛可用数据的行业来说,这个机制让基础模型更具有使用价值。事实上,根据 IBM 院士兼IBM AI 首席技术官 Dakshi Agrawal 的说法,依赖于基础模型使用领域的不同,几千兆字节的数据就基本足够了。
这些复杂的模型对于咱们这样的用户来说听起来可能有些遥远,但你在上网的某个时候肯定看到过依赖基础模型工作的内容。其中比较有名的是GPT-3语言模型,在输入著名作家的作品后,它可以出色地进行仿写;还有DALL-E,它可以根据用户的提示生成令人惊叹的图像。
除了在娱乐领域的创新应用外,基础模型带来的灵活性还可以帮助加速突破性的医学研究、科学进步、工程、建筑,甚至编程。
突现特性
基础模型具有两个非常有趣的特性:突现性和均质性。
突现,意味着该模型能够产生新的意想不到的特性,这些特性在之前几代模型中是没有的。它通常发生在模型尺寸增大的时候。进行基本算术推理的语言模型就是一个具有突现特性的模型示例。
均质性是一个复杂的术语,指的是经过训练能够理解并使用语言来执行不同任务的模型。包括总结一段文本,以著名作家的风格输出一首诗,或者解释人类发出的命令(GPT-3语言模型就是一个很好的例子)。
但基础模型并不局限于人类语言。本质上,我们教计算机做的,是在过程或现象中找到模式,然后可以在特定的条件下复制这些模式。
让我们用一个例子来解释一下。以分子为例,物理和化学属性决定了分子只能以某种特定的构型存在。然后我们定义好分子的用途,例如是一种药物。接着我们使用大量的医疗数据来训练基础模型,以了解不同分子(即药物)在治疗疾病时如何与人体相互作用。
接下来,可以使用这种模式来“微调”基础模型,这样它就可以对哪种分子在特定情况下可能起作用提出建议。这可以大大加快医学研究的速度,让专业人员只需简单地要求模型找出可能具有某些抗菌特性的分子,或者找到可能对抗某种病毒的一种药物。
但是,如前所述,这有时会产生意想不到的后果。最近,一组科学家利用人工智能基础模型发现了罕见疾病的治疗方法,但这个模型也可以被用于制造人类已知的最危险的化学武器。
争议的问题
这些模型可以带来巨大变化的一个小迹象是,提供“描述生成器”的公司正在兴起,这些公司的产品,可以让我们为 Midjourney 或 DALL-E 等模型提供输入描述,然后它能够输出有趣的甚至精准的图像。
当然,像这样的模型会引起争议。最近,许多艺术家就公开反对使用他们的作品来训练图像生成的模型。
还有一个引起争议的例子,是关于训练大型模型所需的能源消耗问题。另外,创建基础模型需要大量的计算资源,这意味着只有世界上最大的科技公司才能负担得起它们的训练费用。
不过,正如 Agrawal 解释的那样,提高这些模型的训练和使用效率,让它们以越来越快的速度为更多人所用,才能进而降低能源消耗和成本。
这些模型的另一个更基本的问题是,原始模型中的任何偏差或错误都可能转移到使用它们构建的工具中。因此,如果种族主义语言被用作语言模型的训练数据,可能会导致一些冒犯性的输出,甚至会导致对相关公司的诉讼。
避免这种情况的一种方法是,通过人工清除不需要的训练数据,但另一种更具未来可行性的方法是:使用所谓的合成数据。合成数据是由人工智能模型生成的模拟真实事物的假数据,但以更可控的方式生成。这对于确保基础模型在学习过程中不会吸收任何攻击性或隐私敏感的数据很有用?
更先进的人工智能模型
会取代我们的工作吗?
会,也不会。
大多数人工智能研究人员将这些模型视为一种工具,就像一把电动螺丝刀,虽然可以让组装一个木结构需要更少的时间,但仍然需要一个人来使用电动螺丝刀。
以 IBM 的基础模型 Ansible Wisdom 为例。为了探究计算机是否可以教计算机编程,研究人员对模型进行了微调,生产出以前必须手动编写的 Ansible 代码片段。有了它,开发人员可以使用自然语言对模型控制,例如命令 Ansible 自动化部署一台新的 Web 服务器。
Agrawal 认为这将彻底改变程序员的工作:
得益于人工智能,整个创新周期将被加速。例如使用基础模型来改善代码,第一代的基础模型就能让编码变得更快,相信它会在短短几年内使生产力翻一番。
该公司正在与 Red Hat (Red Hat 最著名的开源操作系统 Linux 的发布和维护者)合作,将该模型作为开源项目发布。
这种用法类似于电动螺丝刀,面对一个普通的任务,我们可以使用一个工具来自动化部分任务,以便更有效地执行,从而节省开发人员的时间,之后我们可以将这些时间用于更具创造性的工作。
Agrawal 说:“它虽然可以取代今天人类正在进行的活动,但人类却可以继续从事其他活动。80% 的美国人口过去从事农业,现在(根据美国农业部 ERS--农业和食品行业与经济),只有不到 2% ——人类转向了其它活动。与此同时,我们的生活质量也得到了改善。”
基础模型有可能改变许多现在对人类来说乏味或重复的事物,它们还可能为我们面临的一些最棘手的问题创造性的提供全新的、意想不到的解决方案。实际上,基础模型可能意味着知识创建和应用方式的完全范式的转变,关键是要确保这些模型能够向更广泛的公众开放,并有适当的保障措施。
查看英文原文:https://thenextweb.com/news/why-the-future-of-ai-is-flexible-reusable-foundation-modelsby Alejandro Tauber
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有