MLPerf观察:AI芯片的速度越来越快

MLPerf观察:AI芯片的速度越来越快
2021年10月25日 09:19 半导体行业观察

来源:内容由半导体行业观察(ID:icbank)转载自公众号IEEE电气电子工程师,作者:SAMUEL K. MOORE,谢谢。

QUALCOMM

近日,人工智能行业组织MLCommons发布了一组新的人工智能绩效榜单MLPerf Version 1.1。其中可以看到,其遵循了五个月前的第一套官方基准,包括来自20多个组织的1800多项结果,以及350项能源效率测量。根据MLCommons的数据,大多数系统的性能比今年早些时候提高了5-30%,其中一些系统的性能数据比以前提高了一倍多。在近日宣布一个新的机器学习基准测试(称为TCP AIx)之后,出现了新的结果。

在MLPerf的推断基准测试中,由CPU和GPU或其他加速器芯片组合而成的系统在多达六个神经网络上进行测试,这些神经网络执行各种常见功能:图像分类、目标检测、语音识别、3D医学成像、自然语言处理和推荐。对于基于商业数据中心的系统,他们在两种条件下进行了测试:模拟实时数据中心活动,其中查询以突发方式完成;以及“离线”活动,其中所有数据一次可用。本应在现场工作而不是在数据中心工作的计算机(MLPerf称之为边缘)是在离线状态下测量的,就像它们接收到单一数据流一样,例如来自安全摄像头的数据流。

尽管有来自戴尔、HPE、浪潮、英特尔、LTech Korea、联想、Nvidia、Neuchips、高通和其他公司的数据中心级提交,但除高通和Neuchips公司外,其他公司都使用了Nvidia AI加速器芯片。英特尔根本没有使用加速器芯片,而是单独展示其CPU的性能。Neuchips只参与了推荐基准测试,因为他们的加速器RecAccel专门设计用于加速推荐电子商务项目和搜索结果排名的推荐系统。

MLPerf tests six common AIs under several conditions.NVIDIA

对于Nvidia提交的结果,该公司仅使用软件改进就弥补了过去一年50%的性能改进。测试的系统通常由一个或两个CPU以及多达八个加速器组成。在每台加速器的基础上,使用Nvidia A100加速器的系统显示的性能是使用低功率Nvidia A30的系统的两倍或更多。基于A30的计算机在服务器场景的六次测试中,有四次超过了基于高通公司Cloud AI 100的系统。

然而,高通公司产品管理高级总监John Kehrli指出,高通公司的加速器被故意限制为每个芯片的数据中心友好型75瓦功率外壳,但在离线图像识别任务中,他们仍然设法通过了一些基于Nvidia A100的计算机,这些计算机配备了加速器,每个加速器的峰值热设计为400W。

Nvidia has made gains in AI using only software improvements.NVIDIA

Nvidia AI推论高级产品经理Dave Salvator指出了该公司加速器的两个其他结果:第一,Nvidia A100加速器首次与服务器级Arm CPU而不是x86 CPU配对。在所有六个基准测试中,Arm和x86系统之间的结果几乎相同。“这对Arm来说是一个重要的里程碑,”Salvator表示,“这也是关于我们的软件堆栈准备就绪,能够在数据中心环境中运行Arm体系结构的声明。”

与正式的MLPerf基准测试不同,Nvidia展示了一种称为多实例GPU(MiG)的新软件技术,该技术允许单个GPU从软件角度看就像它是七个独立的芯片。当该公司同时运行所有六个基准测试,再加上一个额外的对象检测实例(假设是flex)时,结果是单个实例值的95%。

基于Nvidia A100的系统还清理了边缘服务器类别,该类别的系统设计用于商店和办公室等场所。这些计算机按照相同的六个基准测试中的大部分进行测试,但推荐系统被替换为低分辨率的目标检测。但在这个类别中,有更广泛的加速器可供选择,包括Centaur的人工智能集成协处理器;高通公司的AI 100;Edgecortix的DNA-F200 v2,Nvidia的Jetson Xavier和FuriosaAI的Warboy。

Qualcomm topped the efficiency ranking for a machine vision test.QUALCOMM

使用CPU和加速器数量不同的系统,在两种商业类别的两种条件下进行六次测试,MLPerf性能结果实际上不适用于类似Top500.org通过超级计算实现的简单有序列表。最接近的部分是效率测试,可以归结为离线组件每瓦特每秒的推断。高通公司系统在数据中心和边缘类别的对象识别、对象检测和自然语言处理方面进行了效率测试。在每瓦特每秒的推断方面,他们在机器视觉测试中击败了Nvidia支持的系统,但在语言处理方面没有。Nvidia加速系统占据了所有其他位置。

近日推出了新的基准,目标是一个单一的数字,这似乎与MLPerf的多维性背道而驰。e Transaction Processing Performance委员会称TCPx AI基准:

生成和处理大量数据

训练预处理数据以生成真实的机器学习模型

根据生成的模型对真实客户场景进行准确洞察

可以扩展到大型分布式配置

允许灵活更改配置,以满足动态AI环境的需求

TPCx人工智能委员会主席兼英特尔首席工程师Hamesh Patel解释说,该基准旨在捕获机器学习和人工智能的完整端到端过程。这包括MLPerf中未包含的流程部分,如准备数据和优化。“没有一个基准可以模拟整个数据科学管道,”他说。客户表示,准备(数据)可能需要一周时间,训练“神经网络”可能需要两天时间。

MLPerf和TPCx AI之间的巨大差异包括后者依赖于与真实数据相似但动态生成的合成数据。MLPerf使用真实数据集进行训练和推理,MLCommons执行董事David Kanter对合成数据结果的价值表示怀疑。

MLCommons和TPC之间的成员资格有很多重叠,因此,如果两个基准中的任何一个在可信度上优于另一个,则仍有待观察。至少两名MLPerf参与者报告说,MLPerf目前无疑具有优势,计算机系统制造商已经被要求提供MLPerf数据,作为提案请求的一部分。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部