中国要做自己的GPT-3！昇腾CANN黑科技首曝光，2.4倍性能提升，释放「算力狂魔」_

未来十年，是AI算力的「超摩尔时代」。

要说2020年，AI领域最火的是什么？

毫无疑问是GPT-3，它能写小说、能与人聊天、还能下象棋...... 曾被冠以最「全能」语言模型的称号。

而火极一时GPT-3仅训练成本就在460万美元以上，微软还为其建了一个5亿美元的超算中心，装载了1万张英伟达GPU。

训练GPT-3消耗了它355个GPU年的算力，实属「富人的游戏」!

1750亿参数，GPT-3能取得惊人的成就，靠的不仅是算法的提升，还有「算力的加成」。

在「秀算力」这件事上，近几年一个叫MLPerf的AI性能基准测试，经常跃入人们的视线。

就在6月30日，国际权威AI基准测试MLPerf公布最新一期榜单。

国外，英伟达、谷歌等「算力」大厂的表现，可谓是赚足了眼球。

在国内，鹏城实验室和北京大学联合团队基于华为昇腾AI基础软硬件平台，在MLPerf基准测试中同样取得优异的表现。

测试结果显示，昇腾基础软硬件平台集群性能同比提升2.4倍！

千P「云脑」再进化：给AI硬件插上翅膀

AI计算基准评测组织MLPerf成立于2018年5月，由图灵奖得主大卫·帕特森（David Patterson）发起，学术界和工业界联合制定和推广。

它囊括了AI行业中的70多个知名企业和机构，会员包括华为、谷歌、英特尔、英伟达、微软、脸书等，目的是提供AI软硬件系统的通用Benchmark评测基准。

MLPerf是当今权威性最大、影响力最广的国际AI性能基准测试，相当于AI技术领域的「晴雨表」。

MLPerf Training测试中，鹏城实验室基于华为昇腾AI基础软硬件平台鹏城云脑II，实现了同比性能大幅增长。

该平台是唯一拥有自主知识产权的全栈系统，成绩稳居世界第一阵营。

从MLPerf1.0的评测结果可以看出，在昇腾硬件基本不变的情况下，通过软件和系统级优化，

「Resnet50单卡训练的性能」，在一年的时间内提高了82%。

再看，「Resnet50集群训练的性能」在一年的时间内提高了240%，时间开销仅为0.65min。

先说硬件实力。

硬件便是我们熟知的鹏城实验室与华为共建鹏城云脑Ⅱ。

采用搭载鲲鹏、昇腾处理器的Atlas 900集群，算力为1000P（每秒百亿亿次计算）。

硬件设备「杠杠的」，那么如何在硬件不变情况下，也能实现2.4倍性能的提升。

答案是，鹏城实验室这次集群性能的性能飞升，并不是主要靠硬件的加持，而是软件！

软件提升让算力爆发，这就是所谓的「根深叶茂」。

那么，此次软件和系统级上的优化在哪？

鹏城实验室田永鸿教授介绍道，「鹏城实验室使用华为人工智能全栈的解决方案，在今年的MLPerf评测中之所以能够取得如此优异的成绩，其中关键因素就是CANN。」

2.4倍性能提升！CANN释放「算力狂魔」

什么是CANN？

为了解决算力成本高、模型开发效率低的问题，CANN (Compute Architecture for Neural Networks) 是华为针对AI场景推出的异构计算架构。

它通过提供多层次的编程接口，支持用户快速构建基于昇腾平台的AI应用和业务，极大的释放了昇腾处理器的性能潜力。

昇腾AI全栈图

早在2018年，华为就发布了异构计算架构CANN 1.0。

当前，CANN 3.0是最新版本，目前已经统一了编程架构，做到了端边云全场景协同。

CANN 3.0现在的架构功能十分完善，对外提供适配不同硬件、不同 OS 的驱动，支持NPU+CPU异构通信。

对内可实现Stream、内存等底层管理，丰富的加速库支持算子/标量/向量等通用计算，能高效完成图像和视频数据的预处理，执行引擎为深度神经网络计算提供了执行上的保障。

CANN为用户提供可以快速构建AI应用和业务的多层次编程接口有：

1、统一的编程语言：提供一套标准的ACL编程接口，为开发者屏蔽底层处理器的差异，提升用户APP编程易用性；

2、统一的网络构图接口：提供标准的昇腾计算AIR，支持多框架，让用户可以快速部署神经网络业务；

3、高性能计算引擎以及算子库：通过高性能编译引擎、执行引擎、调优引擎和预置高性能算子库，支撑用户快速部署神经网络业务、降低部署成本并最大程度发挥昇腾计算能力；

4、基础服务：驱动、虚拟化、媒体、集合通信等能力。

在这次MLPerf评测中，对于鹏城实验室优异性能的表现，鹏城实验室MLPerf评测负责人徐鹏翔老师，为我们首次曝光了本次评测所使用CANN的三个黑科技：

1、算子融合性能优化

2、多流水快速启动提升有效算力

3、集群系统性能优化方案

接下来，带你一睹为快。

三个AI黑科技

黑科技一：算子融合性能优化

如何理解算子融合性能优化？

通俗来讲就好比做菜，数据好比食材，算子好比制作工序。

普通厨师需要6道工序才能做出佳肴，而优秀厨师将这6道工序「浓缩」成3道，能够有效提升制作效率。

那么，如何进行工序有效融合将考验厨师的技艺。

CANN的算子融合优化技术就是厨师的这项「特殊技艺」。

在不影响结果精度的前提下，有效减少中间数据的搬出、搬入的时间开销，降低数据拷贝成为突破任务瓶颈的关键。

最新CANN 3.0，1000+算子库让神经网络「瞬时」加速。

根据图的特点和计算资源的分配情况，CANN可以自动进行图的拆分和融合，尽量减少和HostCPU的交互，交互少了，计算资源就能持续保持高强度运转。

此外，算子融合能够增强数据计算和搬运的灵活度，降低系统调度和任务头尾的额外开销。

黑科技二：多流水快速启动提升有效算力

计算启动时，过长的数据载入操作会延长后续计算流水的启动速度。

就好比手机充电电量达到20%才能开机一样让人无法接受。

而CANN架构中，算子编译器自动多流水快速启动方案很好地解决了这个问题。

所谓的快速启动，就是把数据分成多个片段，当一段数据载入完毕之后，计算就会开始。

与此同时，后续的数据也还在马不停蹄地载入。

每当一段数据载入完成且流水空闲时，都会再次启动计算。

由此，昇腾芯片多流水并行能力就可以得到充分的发挥，从而实现流水之间的无缝衔接。

黑科技三：集群系统性能优化方案

横扫人类棋手的「围棋大师」AlphaGo可以利用AI从巨大空间中找到最佳落子点。

同样是利用AI搜索算法，集群系统也可以在无数可能性中找到流水的最佳并行方案。

这样就可以在深度学习的大规模集群训练任务中，实现参数同步流水与计算流水最佳并行。

从而最大化地消减训练拖尾时间开销，提升集群训练的线性度。

这三个黑科技可以从算子层面到系统整体层面实现端到端优化，为Atlas 900训练集群提供有效算力的持续爆发。

三个黑科技，让CANN打开了算力魔盒，为AI硬件插上了翅膀。

华为轮值董事长胡厚崑在2021世界人工智能大会开幕式曾表示，「只有基础打得牢，根技术扎得深，应用创新跑得快，才有人工智能产业的参天大树和生态的持续繁荣。」

鹏城实验室能够在最新MLPerf基准测试中实现2.4倍性能提升，正是因为异构计算架构CANN这3个黑科技扎下了深根。

只有基础打得牢，根技术扎得深，才有人工智能的繁荣发展。

总之，技术要扎到根，根深才能叶茂。

头条号入驻

新智元智能+中国主平台领航中国新智能时

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

中国要做自己的GPT-3！昇腾CANN黑科技首曝光，2.4倍性能提升，释放「算力狂魔」

头条号入驻

北大图灵班00后学子夺得五金！北大荣获国际大学生程序设计竞赛全球总冠军

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

清华叉院教授扔出量子密码学重磅炸弹！论文引业界轰动，但算法被发现bug

财经自媒体联盟更多自媒体作者

热文排行榜