AMD Instinct MI100:首款突破10TFlops FP64数据中心显卡

AMD Instinct MI100:首款突破10TFlops FP64数据中心显卡
2020年11月17日 13:35 聚牛科技官微

2017年,AMD携另一个以龙为名的服务器芯片卷土重来,在Zen架构的滋润下, 没有辜负它同音词EPIC(史诗)的威名,一举展现了如何在单插槽上,实现超越竞品双插槽性能20%甚至60%的强大实力。并在Radeon Instinct MI系列GPU加速卡的帮助下,AMD集结了戴尔、惠普企业、超微等一票巨头(甚至还有Wintel联盟中的重要一员——微软)正式向服务器市场发起全面反攻。一直到现在,当你打开知乎搜索“如何评价EPYC”等相关问题时,看到最多的也是“强”、“无敌”等震撼的字眼。

2018年6月,Intel当时的CEO Brian Krzanich发表了这样一个看法:“Intel的任务是阻止AMD在服务器领域获得15%到20%的份额”,这是AMD的服务器市场经历了若干年的黑暗状态之后,首次让Intel被迫严肃地正视自己这个对手。

2020年7月,AMD发布了2020 Q2财报。AMD总裁兼首席执行官Dr. Lisa Su表示:“AMD第二季度的表现非常强劲,EPYC(霄龙)的营业额比去年同期增加了超过一倍。”AMD的股票盘后大涨10%,是18年6月份的大约5倍。而反观Intel,当时的股价甚至比18年6月份还稍微低一点。Intel将近十年的后花园,就这样被AMD的龙儿啃下来了。

至今三年,作为龙王AMD虽然收获颇丰,却也没有半点收手的意思。在Intel刚从10nm的泥潭脱身的时候,AMD已经剑指5nm,准备Zen 4了。AMD领先的每一步,都在给自己争取时间,创造机会,让云服务商和他们的用户有时间、有机会、有欲望尝试AMD的产品。这不,下一代EPYC(霄龙)、AMDRadeon Instinct MI100两记重锤又砸了下来,丝毫不给对手喘息的机会。在个人电脑的市场逐渐打开、甚至有和Intel平分天下趋势的情况下,服务器领域AMD又会掀起怎样的波澜呢?聚牛科技就斗胆在这里和大家说说。

今年在SC20期间,AMD展示其在高性能计算(HPC)行业中的领导地位,主要表现在:EPYC(霄龙)在高性能计算的发展势头、业界领先的高性能科学研究用HPC加速显卡、以及无国界的生态系统,我们依次来看一下。

第二代AMD EPYC(霄龙)处理器,最高拥有64核心,是AMD率先推出基于 7nm 技术的 x86 处理器。双倍核心密度加上针对提升周期指令数进行的优化,实现浮点性能达到第一代 AMD EPYC(霄龙)的 4 倍。7nm 制程工艺同时也带来更高能效。第二代 AMD EPYC(霄龙)能够以一半的功耗达到同等的性能。

由于HPC工作负载正在变得更加多样化,AMD EPYC产品被广泛地应用到了科学研究、商用高性能计算、AI、建模与仿真、大数据分析等等需要高算力的领域。

而通过采用AMD EPYC 7FX2处理器,像有限元分析、流体动力学、碰撞仿真等HPC项目的创新速度都得到了加快,在优化时间和其他成本上,AMD EPYC 7FX2处理器也体现了非常大的优势。

AMD EPYC(霄龙)现在已被广泛的客户采用或者部署。其提供了刷新纪录的性能和颠覆性的TCO,为众多服务器产品提供了强大的算力支持,通过持续赋能互联网、云计算、互联网数据中心(IDC)等领域,使它们构建更灵活的体系结构执行高性能计算。

大家最期待的、采用“Zen3”架构的下一代EPYC(霄龙)处理器,在这样一个利好的背景下,也终于亮相。根据官方公布的消息,其将于本季度开始交付“Milan”服务器处理器给云和选定的HPC客户,并于明年第一季度正式发布第三代EPYC处理器。

AMD发布最新的Instinct MI100加速显卡,它是业界领先的HPC显卡,同时也是首个突破10 teraflops(FP64)性能的x86服务器显卡, FP32 Matrix比上一代产品MI150快3倍,在AI工作负载方面提升近7倍的FP16峰值浮点性能。

Instinct MI100加速显卡采用全新的AMD CDNA架构,全新的核心设计使其计算能力提升了2倍。为HPC和AI打造了全新Matrix Core技术,为单精度和混合精度矩阵运算(如FP32、FP16、bFloat15、Int8和Int4)提供超强性能,促进HPC和AI的融合。支持全新PCIe 4.0,理论上从CPU到GPU可提供高达64GB/s的峰值传输数据带宽。

值得一提的是,2020年诞生的AMD Instinct MI100已经与20年前的庞然大物般的超算拥有了相差无几的算力,而其体积上、功耗上的优势,显然是不言而喻的。

MI100拥有120个计算单元,FP64峰值达11.5TFLops,FP32峰值达23.1TFLops,FP32 Matrix峰值达46.1TFLops,其拥有32GB的HBM2显存,带宽速率最大1.23TB/s,全面支持PCIe 4.0,Infinity Fabric技术峰值I/O吞吐量达276GB/s,而MI100加速卡的峰值功耗仅300W。

这里给大家上一张对比图,方便大家理解一下MI100的强大。

事实上,美国橡树岭国家实验室已经率先使用了Instinct MI100加速卡,初期效果非常令人惊喜。

作为行业领先的计算平台,AMD Instinct MI100加速显卡预计将于今年年底在企业级市场的主要OEM和ODM合作伙伴的系统上使用,其中包括:惠普Apollo 6500 Gen10 Plus System,戴尔PowerEdge R7525,超微AS-4124GS-TNR,技嘉G482-Z54|Z53等。

AMD还发布了为百亿亿次级时代而打造的开源软件平台:AMD ROCm 4.0

AMD ROCm 4.0主要功能之一就是为MI100加速卡提供很给力的性能优化,考虑到客户的最终利益,在短短两年内实现了8倍的性能提升。相比于ROCm2.0的基础搭建,ROCm3.0专注于机器学习,AMD ROCm 4.0是面向HPC、ML以及AI应用开发者的全新平台,能够帮助他们打造高性能便携软件。

结语

AMD凭借着自身过硬的产品和超高的性价比,成功的在近些年拿到了强势逆袭的爽文剧本,纵观整个市场,基本上可以说是一个大型的“真香”现场。在Intersect360 Research的研究中,AMD产品在HPC用户中的好感度在不断地攀升,2016年36%的HPC用户表示AMD CPU的前瞻性印象很好,这个数字在2020年上升到了78%,不只是翻番而已。

当然,当我们聊算力的时候,我们所谈的不仅仅是制程、核数、频率,更是算力之上的软件以及算力背后的优化、服务与长期的支持。而这些,还需要仍在后方追赶的AMD在打下江山之后慢慢去稳固、去耕耘。但站在这个时代的十字路口,我们还是听到了隐隐有大厦将倾,并且那声音也并不微弱。

我们期待Instinct MI100和第三代EPYC(霄龙)正式“投入战场”!

精彩资讯报道,专业视频评测,尽在聚牛科技

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部