Meta打造大型AI研究超级计算机,可提供5百亿亿次级AI计算性能

Meta打造大型AI研究超级计算机,可提供5百亿亿次级AI计算性能
2022年01月26日 17:09 麻省理工科技评论

近日,Meta 与 Nvidia 公司联合宣布,它们正在合作构建大型超级计算机,以支持人工智能研究。新机器被命名为 RSC,也就是 AI Research SuperCluster。

目前,RSC 超级计算机的第一阶段已经建成并投入使用,它部署了 760 个 NVIDIA DGX A100 系统作为其计算节点,拥有总计 6080 个 NVIDIA A100 GPU,并与 NVIDIA Quantum 200Gb/s InfiniBand 网络相联。所有这一切使它能够提供 1895 千万亿次的 TF32 计算性能。

在存储方面,RSC 则配备了 175PB 的 Pure Storage FlashArray、10PB 的 Pure Storage FlashBlade 和 46PB 的缓存,存储在 Penguin Computing Altus 服务器中。

图 | Meta RSC 超级计算机 | (来源:Meta)

而 RSC 的第二阶段也已经在紧锣密鼓的准备中,并计划建在 2022 年 7 月左右完成。据 Meta 公司表示,第二阶段完成之后,RSC 将在第一阶段的基础上增加额外 1240 个 DGX A100 节点,使其拥有总共 16000 个 GPU,可达到 16TB/s 的速度,并将拥有高达一个完整艾字节的存储容量。

而艾字节这一单位甚至对于许多人来说都还有些陌生:1 艾字节相当于大约 10 亿千兆字节的数据。Meta 表示,这相当于 36000 年的高质量视频的容量。而在 1 艾字节面前,我们经常使用的拥有 2TB 存储空间的移动硬盘,就仿佛沙漠里的一粒沙。

图 | 新 Meta RSC 超级计算机的解释图(来源:Meta)

尽管在第一阶段完成时,RSC 就已经是全球最快的 AI 超级计算器之一。而据 Meta 公司称,与第一阶段相比,第二阶段的 RSC 的 AI 训练性能将提高 2.5 倍以上,这一速度更将使 RSC 将自己的竞争对手远远甩在后面,成为全世界最快的 AI 超级计算机。

此外与之前的系统不同,RSC 超级计算机不仅可以处理开源的公共数据集,还可以处理来自 Meta 的真实内部数据。也就是说,即使不联网时,RSC 还可以通过 Meta 自己的数据中心进行连接,继续工作。另外 Meta 表示所有用户生成的数据在存储系统到 GPU 阶段都进行了加密,只有在用于模型训练之前才会临时在内存中解密。

为了处理 RSC 不断增长的带宽和容量需求,Meta 还开发了一种存储服务,名为 AI Research Store 或 AIRStore。AIRStore 将为 AI 模型预处理训练数据,并优化传输速度。

此外,在第二阶段完成后,RSC 预计还将会成为 NVIDIA DGX A100 系统的最大安装客户。之所以选择 NVIDIA 的 DGX 服务器,而非选择自己投资开发,业界分析主要是为了缩短上市时间。Meta 明白——上市时间很重要。

而 NVIDIA DGX 服务器则使快速组建大型机队成为可能,从而避免了一般设计和安装定制超级计算机所需的数月或数年的时间。

为元宇宙布局

现在 RSC 的第一阶段已经被用于自然语言处理(NLP)和计算机视觉的大型模型训练等应用。而 RSC 的长期目标,无疑是为 Meta 公司所畅想的”将现实与虚拟世界之间的界限模糊化”的元宇宙布局。

Meta 公司表示,RSC 超级计算机可以使 Meta AI 研究人员创建能够从数万亿个示例中学习的新 AI 模型,并使他们能够跨多语言共同分析文本、图像和视频,开发新的增强现实(AR)工具,还可能识别有害内容。

 “我们希望 RSC 能够帮助我们构建全新的 AI 系统,例如,可以为一大群人提供实时语音翻译,而这群人中的每个人甚至都说完全不同的语言,这样他们就可以在研究项目上无缝协作或者一起玩 AR 游戏。” Meta 公司的一位研究人员在一篇博客文章中写道。

Meta 公司的 CEO 扎克伯格也在一份声明中表示:“我们为元宇宙打造的体验需要巨大的计算能力,而 RSC 将使新的 AI 模型能够从数万亿个示例中学习、理解数百种语言,等等。”

疫情期间的系统开发

据悉,开发团队只用了 18 个月的时间,就实现了 RSC 这样一台可以工作的 AI 超级计算机。

(来源:相关资料)

对于 RSC 超级计算机的开发,Meta 称最早可以追溯到 2013 年 Facebook 人工智能研究实验室的成立,但这一项目的真正开始是在 2020 年初,当时公司认为为了充分利用人工智能、GPU 和网络结构技术的进步,有必要建立一个新的系统。而当时的主要目标就是:一个能够在 1 艾字节大的数据集上训练具有超过一万亿个参数的模型的系统。

在开发过程中,新冠疫情无疑给系统的开发带来了巨大的困难,尤其是供应链的中断,导致开发一度缺乏从芯片到 GPU 等一系列组件。

不过,Meta 表示,开发团队已经成功缓解了开发第一阶段的供应链问题,且 RSC 接下来的分阶段构建也正在按计划进行中。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部