AWS计算和网络副总裁Dave:亚马逊为什么同意Nvidia的云端合作?

AWS计算和网络副总裁Dave:亚马逊为什么同意Nvidia的云端合作?
2023年12月18日 21:14 BImpact

亚马逊网络服务上周宣布,将允许Nvidia在AWS数据中心运营云服务,使得AWS成为最后一个提供此服务的主要云供应商。根据《The Information》的报道,通过这项名为DGX云服务的新服务,Nvidia将从AWS租用包含其图形处理单元的服务器,然后向其自己的客户出售服务器的访问权限。

作为交易的一部分,AWS表示将成为首个将Nvidia最新的图形处理单元(称为Grace Hopper超级芯片或GH200芯片)引入云端的云供应商,并使用Nvidia的网络设备将芯片连接在一起。GH200芯片将GPU与Nvidia的通用计算芯片(称为中央处理单元)组合在一起,以增加内存。谷歌、微软和甲骨文通过DGX云服务提供Nvidia的H100芯片,预计他们也会购买GH200芯片。

总结

亚马逊网络服务将提供Nvidia的DGX云服务

AWS是最后一个提供此服务的主要云供应商

公司之间的关系很复杂:亚马逊正在制造芯片,而Nvidia正在提供云服务

云服务提供商如AWS是Nvidia GPU的最大买家之一,但两家公司之间的关系非常复杂。AWS正在开发自己的AI芯片Trainium和Inferentia,与Nvidia的芯片竞争。同时,Nvidia的DGX Cloud是芯片制造商为了更靠近用户并产生额外收入而做出的努力,这对AWS等云服务提供商构成了潜在威胁,据《The Information》报道。

在AWS的Re:Invent大会上,《The Information》采访了AWS计算和网络副总裁Dave Brown,以了解为什么云服务提供商同意DGX Cloud交易的信息,这是此前未曾报道的。在采访中,Brown还讨论了AWS如何缓解芯片和电力短缺问题。

以下采访经过了编辑,以缩短长度并提高清晰度。

The Information:为什么AWS和Nvidia合作推出DGX Cloud以部署新的GH200芯片?

这是一个非常非常困难的工程问题。因此,我们相信这两家公司最有能力解决这个问题。

目前GPU的规模已经超过了服务器。即使是今天,运行GPU也非常复杂。这就是为什么大多数公司不在自己的数据中心内部进行GPU运算的原因,这是不可能的。因此他们转向云服务提供商,但我认为我们现在进入了一个需要最优秀的云服务提供商才能以高可用性的方式实现的世界。

AWS是最后一个与Nvidia签署DGX Cloud协议的主要云服务提供商。为什么会这样?

我们最初没有参与。我们只是认为现在不是合适的时机。我们希望能够在AWS上真正区别于市场上可获得的产品。

你们不能用备受追捧的H100芯片来创造差异吗?

这需要一些时间,这需要真正理解,“我们如何一起创造差异化?”与合作伙伴的差异化需要时间。您需要确切地了解他们所提供的内容,他们也需要了解您所提供的内容。您需要深入了解对方的技术,并了解彼此的优势组合可以为最终客户创造出更好的产品。

我们选择了不参与首次合作,但这并不意味着我们曾说过不会在未来参与。实际上只是一个时间问题,我们是否能找到差异化的产品。

AWS的DGX Cloud与其他云服务提供商提供的产品有何不同?

[其他云服务提供商]可能也有GH200芯片,但他们没有多节点[NVLink,这是AWS将用于将32个GH200芯片连接在一个服务器机架上的技术]。这是首次有人在云中使用水而不是空气来冷却Nvidia GPU。

今天,我们的服务器有八个GPU。使用八个GPU,可以使用空气进行冷却。但当你开始使用32个GPU时...密度太高,无法再用空气冷却[GPU服务器]。这带来了许多工程复杂性,而AWS在这方面处于最佳位置。

我们有Nitro系统[可以将部分计算工作外置到服务器之外的芯片],我们知道Nitro系统不仅提供更好的安全性,还提供更好的性能。然后我们还有弹性布线适配器[Elastic Fabric Adapter,AWS的网络系统]。弹性布线适配器与InfiniBand非常相似,其他提供者也在使用,但基于以太网。[弹性布线适配器]是我们自己开发的协议,并且这是我们在所有实时GPU集群中使用的协议。

当您看整个解决方案时,它是完全有差异的。

通过DGX Cloud,谁将能够访问这些GPU集群?

Nvidia将用该集群进行[其]内部工作负载,然后他们还希望帮助客户进行模型训练。这就是DGX Cloud。我们还将为最终客户提供这些GPU,就像我们今天有P5服务器[Nvidia H100s]一样,您将能够在DGX Cloud之外获得对此集群的访问。因此,DGX Cloud有16384个GPU,除此之外,我们还将为AWS上的客户提供更多的GPU。

您对Advanced Micro Devices(AMD)最新的GPU感兴趣吗?这些GPU被称为MI300系列,被认为与Nvidia GPU竞争,并在某些任务上可能更好。

在将芯片引入AWS之前,我们会考虑很多因素,其中一部分是如何确保该芯片在AWS上运行得无缺陷?我们如何确保在GPU领域有一个完整的生态系统,能够支持我们拥有的芯片?

目前,我们选择将重点放在Nvidia和Trainium [AWS的内部AI训练芯片]上,但这当然不意味着我们不会考虑其他加速器 - 英特尔、新创企业或其他什么。如果有我们认为客户真正想要的东西,我们绝对会将其引入AWS。

部署GPU的最大瓶颈之一是数据中心的电力供应,因为GPU非常耗电。AWS是如何解决这个问题的?

在我们的区域,某个地理区域可用的电力是有限的。几年前我们建立了本地区域[靠近终端用户的数据中心]。我们从洛杉矶开始,现在全球有大约40个本地区域。这是一个远离[具有多个数据中心的区域枢纽]的AWS数据中心。

通常出于延迟的原因而这样做,以便靠近用户。但在GPU的情况下,我们能够将本地区域用于电力资源充足的地方。亚利桑那州就是一个很好的例子。我们在亚利桑那州建立了一个本地区域。现在,那里有很多的[GPU]。

我们不必像其他云服务提供商那样寻找其他供应商。[微软最近与CoreWeave和Oracle达成了协议。]我们能够寻找数据中心,找到电力,然后快速将其作为本地区域投入使用。这需要几个月的时间。

几周前,您宣布了一项名为Capacity Blocks的服务,旨在使客户更容易租用带有GPU的服务器。是什么促使您创建这项服务?

对我们来说,这是一个非常快节奏的领域。我们在几个月内建立了Capacity Blocks[这项新服务]。我们意识到,在供应受限的环境中,目前的云服务器销售方式对于GPU来说效果不佳。

情况是,只要有任何可用的GPU,它就会马上被抢购。对于创业公司来说,实际上很难获得这些GPU。通常情况下,只有一些更大、更有资金的组织才会一直寻找GPU。因此,即时服务的模式并不适用。

即使在不受限制的情况下...你愿意为你不需要的GPU花钱吗?我认为组织们正在努力应对这样的问题:“我如何在需要时获得GPU?”

然后另一个挑战是您需要将它们部署在一个网络中,所有GPU都在同一个集群中。竞价市场在训练中实际上并不起作用,因为您可能会在这里有一个GPU,在那里有一个GPU,这不是一个集群解决方案。

Capacity Blocks可以保证访问这些GPU,并且定价有所不同。如果您在周末运行,价格会更低。

我们应该期待在这方面看到更多吗?

您将看到我们非常快速地进行迭代 - 不同的区域、不同的实例类型、不同的购买方式。您将看到我们与其他创业公司合作,并且在这个领域将会有很多机会。所以请密切关注。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部