登顶开源大模型榜、比LLaMA更小更强,Falcon 40B背后训练设施揭晓

登顶开源大模型榜、比LLaMA更小更强,Falcon 40B背后训练设施揭晓
2023年06月08日 18:32 智东西
智东西

作者 |  ZeR0

编辑 |  漠影

智东西6月8日报道,亚马逊云科技(AWS)助攻大模型训练的战绩又添上一笔。继Stability AI、AI21 Labs和LG AI之后,位于阿联酋首都阿布扎比的全球领先科研中心TII也在亚马逊云科技上训练了其开源模型Falcon 40B。

值得一提的是,这个拥有400亿个参数的模型,并非迄今最大的开源语言模型,却一举登顶Hugging Face开源大语言模型排行榜,超过了LLaMA-65B、StableLM、RedPajama和MPT等知名模型。

TII跨AI研究中心执行总监、代理首席AI研究员兼大语言模型项目负责人Ebtesam Almazrouei博士说,这是TII致力于促进AI创新的重要里程碑,也体现阿联酋深远的科学贡献。

一、基于1万亿tokens,更小规模的最强开源语言模型

过去三年,大模型竞赛的重点放在模型大小上,并观察到准确性与参数数量之间存在关联。比如2020年发布的GPT-3和去年发布的BLOOM都拥有约1750亿个参数,2021年发布的Gopher拥有2300亿个参数、T-NLG拥有5300亿个参数。

直到去年,Hoffman等人观察到当前模型参数和数据集大小之间的计算平衡不是最优的,并发表了经验性的缩放定律,建议将计算预算转向使用更多数据训练的较小模型,可以获得性能更好的模型。经实验,他们去年发布的700亿参数Chinchilla模型,表现超过了更大的模型。

TII的Falcon大语言模型同样是这一理念的实践者。基于一万亿个tokens训练的Falcon在性能与其他高性能大语言模型相媲美的同时,拥有更高的成本效益。

TII使用Amazon SageMaker Training API提供的瞬态集群来训练Falcon大语言模型,最多支持48个ml.p4d.24xlarge实例(384个英伟达A100 GPU)。现在,TII正在训练下一代Falcon大语言模型,将训练扩展到3136个A100 GPU(392个ml.p4d实例)。

为了提高科学质量和训练速度方面的水准,该项目在各个层面都进行了定制创新。其中,TII在所有深度学习训练系统层级上都进行了优化。

二、开源Falcon模型已云上可取,轻点鼠标即可部署和使用

SageMaker是一个托管API集合,用于开发、训练、调优和托管机器学习模型,包括大语言模型。Stability AI、AI21 Labs和LG AI等知名生成式AI创企或顶尖AI实验室已经使用SageMaker处理其大语言模型工作负载。SageMaker Training提供了具有用户自定义硬件配置和代码的计算集群。计算作业按运行次数计费,按秒分配任务,因此用户在未使用服务时无需为GPU资源付费。

Falcon大语言模型提供Falcon 40B和Falcon 7B两种不同规模的开源版本,均是使用Amazon SageMaker的数据预处理和模型训练任务从零开始构建的。用户可以用开源Falcon 40B来构建和定制满足自身需求的AI工具,便于无缝集成,并确保长期保存数据资产。模型权重可供下载、检查和部署在任何地方。

从6月7日起,两个开源Falcon大语言模型也将在Amazon SageMaker的机器学习中心Amazon SageMaker JumpStart中可用。它提供了预训练模型、内置算法和预构建的解决方案模板,可帮助用户快速上手机器学习。

用户只需在SageMaker Studio中轻点鼠标就可以部署和使用Falcon模型,或者通过SageMaker Python SDK以编程方式使用。

三、亚马逊云科技正快速开辟生成式AI疆土

大模型应用和生成式AI开发正成为云计算竞争的焦点赛道,身为全球最大云计算巨头的亚马逊云科技自然也不遑多让。

日前,知名市场分析机构Gartner发布《2023 云 AI 开发者服务魔力象限》报告,亚马逊云科技被评为“领导者”,且在执行能力轴上排名最高,背后的一大功臣便是Amazon SageMaker。

今年4月,亚马逊云科技推出Amazon Bedrock托管服务和Amazon Titan模型,为开发者借助基础模型构建和扩展生成式AI应用提供便利。

使用Amazon Bedrock,开发者可以通过API访问AI21Labs、Anthropic和Stability AI等热门AI公司的预训练基础模型,还能访问对亚马逊云科技开发的基础模型系列Amazon Titan。

从易用性来看,Amazon Bedrock提供无服务器体验。客户可以轻松找到适合自身业务的模型,快速上手,在确保数据安全和隐私保护的前提下,使用自有数据基于基础模型进行定制,并使用亚马逊云科技工具和能力,将定制化模型集成并部署到应用程序,无需自己管理基础设施。

今年6月1日,德勤宣布将利用亚马逊云科技的Amazon Bedrock全托管服务扩展其生成式AI能力,帮助客户更快速地大规模构建新的AI应用。

此外,亚马逊云科技的AI编程助手Amazon CodeWhisperer面向个人开发者免费开放。

Amazon CodeWhisperer从数十亿行公开代码中学习之外,还基于亚马逊的代码进行了训练,可以为Amazon EC2、Amazon Lambda和Amazon S3等云服务生成最准确、最快和最安全的代码。开发者使用Amazon CodeWhisperer,完成任务的速度平均快57%,成功率高27%。

埃森哲已经开始用Amazon CodeWhisperer加快编码任务,作为其Velocity平台软件工程最佳实践计划的一部分。CodeWhisperer可以帮助开发者更快熟悉使用亚马逊云科技服务开发的项目。借助CodeWhisperer,埃森哲新的开发人员就能够为Amazon S3和Amazon DynamoDB等亚马逊云科技服务编码,在短时间内高效工作并为项目做出贡献。

印度IT服务巨头Persistent Systems也宣布与亚马逊云科技进一步深化合作关系,将为其16000多名工程师配备Amazon CodeWhisperer编程助手,以便他们更快速、更安全地为企业客户构建和交付行业应用程序。

结语:生成式AI云服务竞争日趋激烈,将加速AI开发及应用创新

生成式AI正为云计算企业的基础设施、软件及应用服务注入新的增长动力。从今年3月起,从硬件资源到开发平台,各家云巨头们都开始在云产品中加入大量以大模型能力为底层的服务。

可以看到,在这个趋势之中,亚马逊云科技走得是相对开放的路线,一方面重视底层硬件研发,另一方面从多方面来提供AI与云计算融合的资源和服务,为更多企业及开发者在其云平台上进行AI创新提供支撑。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部