Google Cloud发布下一代TPU和GPU集群增强AI Hypercomputer堆栈_

Google Cloud正在更新面向AI工作负载的AI Hypercomputer堆栈，并宣布推出了一系列新处理器和基础设施软件产品。

Google宣布推出了第六代张量处理单元Trillium TPU，以及即将推出由Nvidia H200 GPU驱动的新型A3 Ultra虚拟机，此外还有基于Axion Arm架构的C4A VM，从今天正式面世。

谷歌还推出了新的软件，包括一个名为Hypercompute Cluster的高度可扩展集群系统，以及Hyperdisk ML块存储和并行文件系统。

Google Cloud副总裁、计算和AI基础设施总经理Mark Lohmeyer在一篇博文中表示，AI Hypercomputer堆栈为企业提供了一种方法，可以把工作负载优化的硬件（例如谷歌的TPU和GPU）与一系列开源软件集成在一起，以支持广泛的AI工作负载。

他表示：“这种整体方法优化了堆栈的每一层，在最广泛的模型和应用中实现了无与伦比的规模、性能和效率。”

Lohmeyer表示，谷歌希望提高AI Hypercomputer堆栈的性能，同时使其更易于使用，且运行成本更低。要做到这一点，就需要一套先进的新功能，这正是谷歌今天推出的。

这次最重要的发布是Trillium TPU，它为客户提供了Nvidia主流GPU的一个强大替代品，并且已经被谷歌用于支持高级AI应用，例如Gemini系列大型语言模型。Trillium TPU现已面向所有客户推出预览版，与谷歌第五代TPU相比，Trillium TPU有了显著改进。

例如，它在AI训练方面的性能提升了4倍，推理吞吐量方面提升了3倍，能源效率方面提升了67%，峰值计算性能提高了4.7倍，同时高带宽内存容量增加了1倍，芯片间互连带宽也增加了1倍。

内存和带宽的增加，意味着Trillium可以运行更大的大型语言模型，具有更多的权重和更大的键值缓存。此外，它还允许芯片在训练和推理方面支持更广泛的模型架构，成为训练Gemma 2和Llama等大型语言模型以及“Mixture-of-Experts”（MoE）机器学习技术的理想选择。

Lohmeyer表示，Trillium可以扩展到一个配置了256个芯片的集群容纳在一个高带宽、低延迟的pod中，可以使用最先进的芯片间互连技术将其链接到其他pod，这就意味着客户拥有无限的可能性，他们可以灵活地连接数百个pod和数万个Trillium TPU，以打造“建筑规模”的超级计算机，并由每秒13千兆比特的Jupiter数据中心网络提供支持。

“我们设计TPU是为了优化性价比，Trillium也不例外，与v5e TPU相比，它的性能提高了1.8倍，与v5p相比，性能提高了约2倍，这使Trillium成为我们迄今为止性价比最高的TPU。”

采用Nvidia H100 GPU的A3 Ultra VM

当然，Google Cloud的客户并不局限于使用Trillium TPU，因为谷歌还是继续大量购买Nvidia最强大的GPU。谷歌已经使用Nvidia H100 GPU打造了最新的A3 Ultra VM，据说与现有的A3和A3 Mega VM相比，性能上有了显著的提升。

Lohmeyer表示，A3 Ultra VM将于下个月登陆Google Cloud，利用谷歌新的Titanium ML网络适配器和数据中心范围的四向轨道对齐网络，提供高达每秒3.2兆比特的GPU到GPU传输流量。

因此，GPU到GPU带宽的带宽将提高2倍，大型语言模型推理工作负载性能提高2倍，内存容量增加近2倍，带宽增加1.4倍，这些都将让客户从中受益。就像TPU一样，客户可以选择将数万个GPU连接到一个密集的高性能集群中，以处理那些要求最苛刻的AI工作负载，从而扩展部署规模。

A3 Ultra VM可以被作为独立的计算选项使用，也可通过Google Kubernetes Engine使用，后者为客户提供了一个开放的、便携的、可延伸和可扩展的AI训练和服务平台。

基于Google Axion CPU的C4A VM

当然谷歌承认，并非每个AI用例都需要如此强大的马力，因为有很多类型的通用AI工作负载用较低的功率就可以运行起来。在这种情况下，优化堆栈以降低成本是有意义的，而这时候新C4A VM就能派上用场了。

C4A VM是由Google Axion CPU提供支持的，后者是谷歌首款基于Arm架构的数据中心CPU。

谷歌给出了一些有趣的说法，称C4A VM的性价比比竞争对手云平台上最新基于Arm的实例要高出10%，而且和当前一代基于x86的实例相比也非常出色，性价比高出65%，对于通用工作负载（例如Web和应用服务器、数据库工作负载和容器化微服务）而言，能效高出60%。

Constellation Research分析师Holger Mueller表示，这款新硬件进一步巩固了Google Cloud作为AI开发者最佳云基础设施平台的地位。谷歌借助Trillium TPU在把TensorFlow等客户算法应用到客户硬件方面，领先竞争对手三到四年。

Mueller表示：“除了性能改进之外，Trillium在能效方面提升67%，这看起来也非常重要，因为功耗因素对每个组织都变得越来越重要，看到网络速度和带宽的提高也令人欣喜，这可以满足更大模型的需求。”

此外Mueller表示，Google Cloud的客户会很高兴知道谷歌正准备支持Nvidia最强大的GPU，包括定于明年推出的Blackwell GPU。

“现在是成为Google Cloud客户的一个好时机，而且有很多这样的客户，因为越来越多的企业已经意识到这是一个值得使用的平台，一旦这些更新的影响开始显现，我们可以期待看到Google Cloud在AI领域的领导地位得到进一步确认。”

支持堆栈

除了新硬件之外，谷歌还对组成AI Hypercomputer的底层存储和网络组件、以及将一切连接一起的软件进行了重大改进。

谷歌通过最新的Hypercompute Cluster来简化基础设施和工作负载配置，这样客户就可以把数千个加速器作为一个单元部署和管理。这款软件将在下个月推出，提供诸如支持密集的资源共置、有针对性的工作负载放置、高级维护以最大限度地减少工作负载中断和超低延迟网络等。

“Hypercompute Cluster旨在提供卓越的性能和弹性，因此您可以放心地运行那些最苛刻的AI和HPC工作负载，”Lohmeyer说。

与此同时，谷歌的Cloud Interconnect网络服务正在更新一项围绕“应用感知”的新功能，旨在解决流量优先级方面的难题。具体来说，它可以确保在网络流量拥堵时，从Google Cloud流出的低优先级流量不会对高优先级流量产生不利的影响。谷歌表示，另一个好处是可以降低总拥有成本，因为它可以更有效地利用Cloud Interconnect上的可用带宽。

其他方面，谷歌还对Titanium基础设施进行了增强，后者是一个卸载技术系统，可用于减少处理开销并增加每个工作负载可用的计算和内存资源量。增强之后的Titanium可以支持最苛刻的AI工作负载，利用新的Titanium ML网络适配器来增加加速器到加速器的带宽，而且还采用了谷歌的Jupiter光纤电路交换网络结构，该结构可以提供高达每秒400千兆位的链接速度。

最后，谷歌宣布Hyperdisk ML块存储服务已经全面上市，该服务于今年4月开始提供预览版。这是一款专注于AI的存储解决方案，针对系统级性能和成本效益进行了优化，模型加载时间提高了11.9倍，AI训练时间加快了4.3倍。