MLPerf 最新结果公布，Arm 服务器亮眼首秀_

雷锋网消息，本周三，MLCommons 公布最新 MLPerf Inference V 1.1 基准测试（Benchmark）结果。与 V 1.0 版本相比并无太大区别，只不过在边缘推理的测试场景中，串流传输被弃用，不再作为基准测试的一部分。

新一轮基准测试中，在 AI 领域占优势的英伟达依然是唯一一家提交了从数据中心到边缘所有 MLPerf 基准测试类别数据的公司。不同的是，此次基准测试中，英伟达第一次在 Arm 系统上进行数据中心测试，并取得不错的成绩。

Arm服务器推理性能接近x86

由于能效性能的不断增长和强大的软件生态系统，Arm 架构正在向全球各地的数据中心进军，而在此次MLPerf 基准测试中，Arm 服务器也被纳入其中。

英伟达展示的基准测试结果表明，如果以 A30 GPU 为标准，基于 x86 服务器和 Arm 服务器的处理速度均有提升。离线（Offline）测试中，基于两种服务器的 A100 处理速度差别不大，相比于 A30 的处理速度均有接近 2 倍的提升；服务器（Server）测试中，A100 相比于 A30 有 1 至 3 倍的提升，在语音识别 RNN-T 模型中，基于 x86 的 A100 处理速度与基于 Arm 服务器差别较大。

另外，本次基准测试中，A100 也同时基于 Ampere Altra CPU 的 Arm 服务器和英特尔的 x86 服务器上进行了测试。

作为 GPU 加速的平台，在 AI 推理工作中，使用 Ampere Altra CPU 的 Arm 服务器的性能稍逊于具有类似配置的 x86 服务器，但在 3D-Unet 工作负载测试中，基于 Arm 服务器的 A100 性能得分超过了 x86 服务器。

一直以来支持所有 CPU 架构的英伟达表示，十分高兴能够看到 Arm 在同行评审中的行业基准测试中能够证明其 AI 性能。

Arm 高性能计算和工具高级总监 David Lecomber 表示： “最新推理结果表明，Arm CPU 和 NVIDIA GPU 驱动的 Arm 系统已能够应对数据中心中的各种 AI 工作负载。”

AI 推理性能四个月内提升 20%

此次基准测试中，英伟达一如既往地展示了其 AI 推理性能，英伟达凭借其架构设计配合软件再次取得突破。

与 MLPerf 0.7 版本相比，本次测试中英伟达 A100 GPU 各类工作负载得分均有提升。其中，医学图像 3D U-Net 模型涨幅高达 150%，语音识别 RNN-T 模型测试涨幅高达 130%。

事实上，在今年 4 月份 MLPerf 1.0 版本中，A100 GPU 的推理能力就已经在推荐系统模型 DLRM，语音识别模型 RNN-T 和医疗影像 3D U-Net 模型方面有一定提升，提升幅度最高达 45%，而此次又取得新突破，相比四个月前提升了 20%。

根据英伟达的介绍，其完整的 AI 软件堆栈是提升其 GPU 性能的关键。

英伟达 TAO Toolkit 可以简化迁移学习过程，用户能够在熟悉的环境中优化模型；英伟达 Tensor RT 软件对 AI 模型进行了优化，使其能够最有效地运用内存并且实现更快的运行速度。Trition 推理服务器能够简化云端、本地数据中心或边缘的服务部署，支持不同应用中的欺诈检测、包裹分析、图像分割等各类任务。

此外，在多实例 GPU（MIG）技术的支持下，英伟达 A100 能够提升将近 7 倍的 GPU 资源，即在一块 GPU 上运行 7 种工作负载，而 A30 只能支持 4 种工作负载。