英伟达A100再霸榜MLPerf，首秀Arm服务器推理成绩_

芯东西（公众号：aichip001）

作者 |

高歌

编辑 | Panken

芯东西9月23日报道，今天，MLPerf发布了最新的1.1基准测试结果，英伟达的AI平台在计算机视觉、医学成像、自然语言处理、推荐系统、目标检测等全部的七种推理性能测试中取得了第一名，这也是其首次在基于Arm的系统上进行的数据中心测试。

MLPerf是当前全球最具影响力的AI计算基准评测组织，由图灵奖得主大卫·帕特森（David Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，每年组织全球AI训练和AI推理性能测试并发榜。

本次基准测试共有7家OEM厂商参与，共提交了22个GPU加速平台，大部分都经过了英伟达认证。参与了本次测试的英伟达合作伙伴有戴尔、富士通、惠普、慧与、浪潮、联想、宁畅、Supermicro和阿里巴巴等。芯东西等媒体参与了本次英伟达测试结果的发布，就测试结果、对比和相应技术进行了探讨。

一、A100离线处理速度超A30 2倍，Arm服务器推理性能接近x86

英伟达称，数据中心每天要查询寻数十亿的图像、声音和视频，GPU对推理的快速响应可以最大化数据中心的吞吐量。

在本次的MLPerf测试中，用于测试AI推理性能的工作负载有深度学习推荐模型DLRM、自然语言处理网络BERT、会议识别RNN-T、医学图像划分3D U-Net、图像分类的ResNet-50和用于高/低分辨率目标检测的MobileNet-v1、ResNet-34。而测试的场景和环境分别为数据中心/边缘和服务器/单数据流。

相比于MLPerf 0.7，本次测试中英伟达A100 GPU在各类工作负载上的得分均有提升。其中医学图像划分3D U-Net的涨幅最高，其上涨了150%，其余的涨幅则在101%-130%之间。

如果以A30 GPU作为标准，无论是基于x86还是基于Arm系统的A100处理速度均有所提升。在离线环境下，A100在大多数工作负载下的处理速度都是A30的2倍左右；在服务器环境下，基于x86的A100对会议识别RNN-T的处理速度接近A30的3倍。

本次，A100也同时在基于Ampere Altra CPU的Arm服务器和英特尔x86服务器上进行了测试。

测试中，基于Arm系统的A100在3D U-Net工作负载中得分超过了基于英特尔x86服务器的，但在其他负载测试中性能略占下风。

Arm高性能计算和工具高级主管David Lecomber说：“最新的推理测试结果表明，基于Arm CPU和英伟达GPU的系统已经做好了准备，可以应对数据中心各种AI工作负载。”

二、完整软件堆栈立大功，4个月提升20%性能

参与本次基准测试的共有7家OEM厂商，这些厂商共提交了22个GPU加速平台，其中大部分都通过了英伟达认证，很多服务器都支持上个月发布的NVIDIA AI Enterprise软件。

据英伟达分享，其完整的AI软件堆栈也是成功的一个重要因素：

NVIDIA TAO工具套件可以简化迁移学习过程，让用户在熟悉的环境中优化模型，而不需学习DL框架；NVIDIA TensorRT软件可以在确保精度的前提下降低模型部分权重，提升模型运行速度；NVIDIA Triton推理服务器则能够简化在云端、本地数据中心或边缘的服务器部署，支持不同应用中欺诈检测、包裹分析、图像分割、语法检查等各类任务。