胜过GPT-3的精益版系统:参数少用了99.9%

胜过GPT-3的精益版系统:参数少用了99.9%
2020年09月22日 23:10 云头条

慕尼黑路德维希•马克西米利安大学(LMU)的AI研究人员开发了一种简化版的文本生成器,该文本生成器可击败OpenAI代表业界最新水平的GPT-3,使用的参数却是其零头而已。

GPT-3是功能强大的AI系统,它能够以独特、原创的响应来回应几乎所有文本提示,这些响应常常异常令人信服。这个例子表明当才华横溢的开发人员可以不受限制地访问超级计算机时可以使用尖端算法和软件所能完成的壮举。

但GPT-3不是很高效。起码与LMU的两位研究人员Timo Schick和Hinrich Schutze开发的一个新系统相比不是很高效。

据arXiv上最近的一篇预印本论文显示,他们俩开发的系统在“superGLUE基准测试中的性能优于GPT-3,仅用2.23亿个参数:

在这项研究工作中,我们证明,可以使用参数数量小几个数量级的语言模型获得与GPT-3相似的性能。实现这一壮举的办法是,将文本输入转换成含有某种形式的任务描述的完形填空问题,并结合基于梯度的优化机制;此外,利用未标记的数据进一步提高了效率。

参数是用于调整和优化AI模型的变量。它们从数据中获得灵感——实际上,训练AI模型的参数越多,它就越可靠、越稳健。

当模型参数少用99.9%的系统能够在基准测试任务中击败佼佼者时,这意义重大。这并不是说LMU系统比GPT-3更胜一筹,也不是说它在SuperGLUE基准测试以外的其他测试中可以击败GPT-3——这项基准测试并不表明GPT-3的整体能力。

LMU系统的结果来自一种名为模式利用训练(PET)的训练方法。据Open AI的政策主管Jack Clark在每周的ImportAI时事通讯中写道:

他们的方法将一种名为PET(模式利用训练)的训练技术与一个预先训练好的小型Albert模型结合在一起,从而使他们创建的系统能够“在拥有32个训练示例的SuperGLUE方面性能优于GPT-3,而所需的参数仅为后者的0.1%。”

PET使用2.23亿个参数,SuperGLUE平均得分74.0分,而GPT-3使用1750亿个参数,SuperGLUE平均得分71.8分。

Clark继续指出,虽然新系统不会在所有任务方面都胜过GPT-3,但它确实为希望借助较一般的硬件把AI推向极至的研究人员开辟了新途径。

该项目强调了大规模AI训练的一些好处——它提供了非常庞大的模型和相对简单的模型能够做什么方面的信息,这激励研究人员开发出更智能、更高效、更特定的性能相当的模型。现在,基于PET的系统拥有的能力总体上不如大规模的GPT架构,但是它们的确表明了我们有办法通过尺寸更小巧的系统获得与这些庞大模型同等的一些能力。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部