Arm Neoverse N3 和 V3，正式发布_

今天，Arm 推出了新的 Neoverse N3 和 V3 内核以及针对这两个内核的 CSS 产品。正如人们所期望的那样，Neoverse N3 更新了 N2，Neoverse V3 更新了 V2。CSS 是 Arm 的计算子系统，可提供更多预封装 IP，帮助公司更快地开发芯片或小芯片。一个重要的说明。新的 Arm 内核上市并不等于明天就可以在货架上的产品中购买它们。当我们获得新的 Intel 或 AMD 核心时，当它出现在货架上的产品中时（并且已经为特定客户预发货了一段时间），该核心就会被宣布为可用。在 Arm 的公告中，其 IP 现已可供客户使用用于制造芯片。Intel和AMD对Neoverse V3和N3的竞争将是下一代产品。

新的 Arm Neoverse 核心、CSS 和更新的路线图

在公告中，Arm 重点关注 Neoverse V3 和 Neoverse N3 内核，但在推出 N2 系列后，还将其 CSS 解决方案扩展到了 V3 系列。

Arm 没有在预简报中详细讨论的是现在有 E3 内核。他们只是在这张幻灯片上被提及。

Arm 还为我们提供了下一代 CSS V 系列（Vega）和 N 系列（Ranger）平台的代号，以及可能是 Neoverse V4“Adonis”和 N4“Dionysus”产品。

可能用于 Neoverse E4 的小型 E 系列盒子是 Lycius。

Arm Neoverse N3 和 CSS N3

Arm 正在大力销售 CSS 解决方案，因为它可以销售更多 IP。Arm 将拥有最多 32 个内核和最多 8 个内核，并且可以将 32 核版本的 TDP 降至 40W。它是 Arm 平衡、高能效 CPU 内核系列中的最新产品，适用于各种市场。

Arm 表示，按每瓦性能计算，新解决方案的效率比 N2 核心高出 20%。Arm 没有对这个 20% 的说法做出尾注。

如上所说。N3 CSS 设计支持一系列 CPU 内核，从 8 到 32 个。对于后者，Arm 表示他们的设计可以低至 40W TDP 运行，或者每个 CPU 核心功耗略高于 1 瓦——尽管该公司没有透露这是什么流程节点。

Arm 在此并未提供太多架构细节。但由于 N 系列设计历来与 Cortex-A7xx 系列共享大量设计元素，因此最终发现 N3 也有相同的设计元素我不会感到惊讶。

与此同时，Arm 简要介绍了 N3 CSS 的内部情况，以解释其在基于 XGBoost 库的 AI 数据分析方面的巨大性能飞跃。

首先，N3 CSS 的 L2 缓存大小现在为每个核心 2MB，而 N2 的 L2 缓存大小为 1MB。事实上，Arm 还在其整体缓存和内存子系统上花费了相当多的精力，包括对其一致的主机接口进行了一些未公开的调整，以更好地管理 CPU 内核和末级缓存（及更高级别）之间的流量和内存带宽。尽管尚不清楚 N3 是否也使用 Arm 的新 CMN-S3 网格，或者是否仅限于 V3。同时，在 N3 的前端，CPU 核心具有更准确的分支预测单元。

总而言之，这些改进以及更多改进使 Arm 的 XGBoost 性能提高了 196%，同样，V3 CPU 内核在相同工作负载下的性能提高了 84%。这使得数据分析/XGBoost 总体上成为一个极端的异常值，但它确实表明了 Arm 在即将到来的一代 CPU 架构上投入了一些努力。

除了这些核心改进之外，N3 还具有 V3 也获得的许多 I/O 和内存改进。Arm 尚未提供详细列表，但我们被告知它支持最新的 PCIe 和 CXL 标准 - 这可能分别是 PCIe 5.0 和 CXL 3.0。值得注意的是，Arm 之前的路线图已将这一代硬件固定为支持 PCIe 6.0，但由于没有进入 V3，看起来 Arm 不得不退一步。

最后，与 V3 CSS 一样，N3 CSS 也具有芯片间互连功能。尽管与 N 系列硬件的大多数其他方面一样，它已缩小为单个互连。因此，芯片供应商可以选择将 N3 直接集成到他们的芯片设计中，或者将其连接到外部加速器小芯片。

Arm Neoverse V3 和 CSS V3

Neoverse V3 之前在 Arm 的路线图中被列为“V-Next”，代号为 Poseidon，它是 Arm 原始 Neoverse 路线图中的最终架构设计，Arm 将最终实现他们很久以前的设想。

Neoverse V 内核传统上源自 Cortex-X 设计，虽然 Arm 目前没有透露这一级别的细节，但没有理由相信这种情况发生了变化。我怀疑我们正在研究的 CPU 核心设计大量借鉴了 Cortex-X5（Arm 的下一代 Cortex-X 设计），以分别与 V1 和 V2 的 X1 和 X3 的使用保持一致。但这肯定是我的一个假设。

Arm Neoverse CSS V3 真的很有趣。首先，性能声称是每个插槽的性能提高了 50%，但这并未考虑功耗。因此，从较小的高效 N 系列核心转向较大的 V 系列核心，并且没有功率限制。然而，这一说法并没有最后说明如何衡量它。

Neoverse CSS V3 每个集群有 64 个核心，每个插槽最多有 128 个核心，支持 PCIe Gen5、CXL 3.0 甚至 HBM3 等现代功能。例如，我们不知道 HBM3 支持是否用于获得上述 50% 的要求，因为 Arm 没有说明如何达到该数字。

Arm 的一大特色是，如果客户拥有自己的 AI 加速器，它可以帮助他们提供 NVIDIA Grace Hopper 风格的计算平台。Arm 的目标是通过 CSS V3 使 CPU 计算变得简单，尽管其内核数少于 NVIDIA 的 72 核 Grace Hopper。

Arm 尚未提供 CPU 内核的通用性能估计，但在模拟中，他们发现大多数工作负载的性能在 10% 到 20% 之间，除了 AI 数据分析的边缘情况（强调“分析”而不是“人工智能”）。回到 Arm 最早的路线图，这低于他们最初目标的 30% 逐代改进，但话又说回来，V2 当时甚至没有出现在这些路线图上，因此 Arm 的步伐变得越来越小，更频繁一点。

同样，我们这里没有任何深入的架构细节，但我们确实有一些 V3 带来的变化的高级细节。例如，Arm 在多个方面将大量精力集中在网状结构上。V3 本身改进了与 Arm 网状结构的连接方式，以减轻那里的压力。网状结构本身是新的，用新的 CMN-S3 取代了 Arm 久经考验的 CMN-700——尽管我们没有关于后者的更多细节。

否则，V3 及其 CSS 对应项将支持所有最新的 I/O 和内存格式。通过 I/O，CXL 支持已从 CXL 2.0 提升到CXL 3.0 – 仍然位于 PCIe 5.0 之上。同时在内存方面，LPDDR5、DDR5 和 HBM3 均受 Arm IP 支持。

Arm 首次针对 V 系列 CPU 内核提供该 IP 的现成 CSS 版本，以便快速集成到客户芯片设计中。尽管CSS计划本身仍然相当新，但Arm表示，该策略已被证明非常成功，像微软（Cobalt 100）这样饥渴且资金充足的云服务提供商迅速采用它，以便快速整合自己的芯片设计，硬件投入使用。因此，Arm 希望为高性能客户带来同样水平的简单性，特别是那些只需要经过验证的 CPU IP 模块来与其定制加速器设计配对的客户，Arm 甚至提供一套现成的芯片到芯片连接以进一步简化流程。

虽然是在本月早些时候在技术上宣布的，但 V3 CSS 设计与 Arm 建立自己的 Chiplet 生态系统——Arm Chiplet 系统架构 (CSA) 的努力密切相关。CSA 计划旨在让客户能够更轻松地在其产品中混合和匹配小芯片，CSA 不仅限于协议兼容性，还解决系统管理、DMA、安全性和软件兼容性等问题。

Arm Chiplet 系统架构 (CSA) 实际上是使用 Arm 计算 Chiplet 以及来自其他 IP 来源的 Chiplet 的设计。

值得一提的是，云提供商的想法是他们可以在 AI 加速器 IP 上工作，并且可以轻松添加 Arm 内核。坦率地说，AMD和英特尔需要在chiplet时代模仿这种能力。

在某个时候，我们预计 AMD 和英特尔将探索出售其 x86 小芯片以集成到其他封装中，因此 Arm 推动这一点是有道理的。这是他们有优势的领域，但如果有这么多客户对 CSS 感兴趣，Arm 也应该生产 64 核 Neoverse V3 小芯片作为 CSS 的一部分，然后将它们提供给客户以进一步缩短设计周期。

为了强调 Arm 所设想的 V3 CSS IP 的快速周转时间，该公司已经宣布赢得 Socionext 的设计，Socionext 正在设计一款 32 核 V3 CSS 小芯片，将在台积电 (TSMC) 生产。

Arm Neoverse V3 和 N3 性能

Arm表示，通过核心升级和软件优化，它可以在xgboost等方面取得巨大进步。

在模拟中，它可以全面实现更高的性能。在这里我们注意到，Arm Neoverse V2 到 Neoverse V3 的增益通常为9％到16%，Neoverse N2 到 Neoverse N3 的增益通常为 9％-30%。异常值是 Arm 在 xgboost 中投入的工作，即人工智能数据分析。

下是 Arm 与 Intel 和 AMD 的世代比较。

Arm 还在相对较小的 LLaMA 2 大型语言模型（只有 70 亿个参数）上给出了一些 AI 推理基准测试：

展望未来：Adonis, Dionysus,和 Lycius

最后，随着 Arm 目前的 Neoverse 路线图已经结束，该公司正在为未来的 CPU 核心版本提供路线图。

值得注意的是，与 Arm 的V2/N2 时代路线图相比，这是一个不太详细的路线图，其中包括一些关于预计将出现哪些技术的高级说明。相反，该路线图只提供了代号，仅此而已。

确认 Arm 正在开发第四代版本的 E、N 和 V CPU 内核，我们总体上有几个新的代号。Lycius将是下一个Neoverse E系列核心（E4？），而Dionysus将是下一个N系列核心，Adonis是下一个V系列核心。与此同时，他们所尊重的计算子系统也获得了代号，分别为 N 系列 CSS 和 V 系列 CSS 的 CSS Ranger 和 CSS Vega。

目前，Arm 并未就这些设计何时为客户做好准备提供任何指导。但随着 V3/N3 IP 刚刚向客户推出，第四代 Neoverse IP 可能会在几年后出现。

现在据说 80% 的 CNCF 毕业项目本身就支持 Arm。在考虑整体软件兼容性时，CNCF 项目往往是矛尖，并且它们具有较大的安装基础。尽管如此，许多人即使在今天也没有部署 Arm，因为他们希望部署的服务器达到 100% 而不是 80%。NVIDIA 准备在这个市场上做出重大改变，因为它将开始青睐其 CPU 来处理 AI 工作负载。这就是那种能够带来改变的转变。

回想 2016 年使用第一个真正的服务器 CPU 内核与 Cavium ThunderX，Arm 生态系统已经取得了长足的进步，并且持续发展，这对整个行业来说是一件好事。