AMD Versal家族再添新成员 ——打破AI内存桎梏 支持CXL 3.1

AMD Versal家族再添新成员 ——打破AI内存桎梏 支持CXL 3.1
2024年11月13日 17:04 至顶网

更多的数据激增,为处理能力带来了巨大压力;带宽需求的不断攀升,使网络承载能力濒临极限;更高的数据传输效率,增加了对稳定性的严苛要求;层出不穷的安全威胁,将信息守护的战线不断拉长......

对于存储行业而言,这些挑战并不新鲜,几十年来它们一直伴随着行业发展不断攀升。而最近两年,随着AI的迅猛发展和广泛应用,这些问题开始更加不可忽视。在德勤发布的有关报告中体现,随着AI的迅猛发展,全球数据量激增,对处理能力、带宽需求和数据传输效率提出严峻挑战,网络承载能力接近极限。此外,安全威胁不断增加,数据泄露等问题频发,需加强基础设施和防护手段以应对相关挑战。

CXL 3.1走向成熟

事实上,面对这些挑战,存储技术也在不断进进步以满足需求。从当前的趋势来看,DDR5内存已成为市场的主流选择,并且正逐步取代DDR4,成为数据中心和消费级设备的核心组成部分。自今年开始,DDR5已经广泛应用于各大硬件平台,并将在未来几年内继续占据主导地位,成为推动计算性能提升的关键引擎。

与此同时,连接计算与存储的新技术——Compute eXpress Link(CXL)的内存扩展也在快速崛起。

其实,CXL是由主要硬件供应商和云提供商在2019年共同制定的开放标准。与传统的PCIe互连相比,CXL增加了新的功能,使CPU能够以高速缓存一致的方式,通过加载/存储语义与外部设备及其连接的存储器进行通信。因此,内存相关设备的扩展成为CXL的核心应用场景之一。

从2019年至今,CXL已经发布了1.0、1.1、2.0、3.0、3.1等多个不同的版本。CXL 2.0引入了内存池化(Pooling)功能,有效推动了以内存为中心的构想;CXL 3.0实现了内存共享(Memory sharing)和内存访问,使多台设备可以在硬件层面访问相同的内存地址;而CXL 3.1具备开拓更多对等通信通道的能力,成功实现了内存与存储的独立分离,从而形成独立的模块。此外,CXL 3.1版本的规范更是支持DDR6内存。

从整体架构来看,计算系统对更高性能和更大内存容量的需求不断加剧,这就需要有更快的主机连接、更丰富的内存以及一致性更高的接口来支持这些变化。因此,PCIe Gen 6、LPDDR5X和CXL 3.0等新一代技术正在迅速发展,以迎合这种架构需求。更快的PCIe带宽可以显著提升系统的传输效率,LPDDR5X则在移动和嵌入式设备中带来更高的能效,而CXL 3.0则为内存和设备间提供了更低延迟连接,推动服务器和数据中心架构向着更为连贯、高效的方向演变。

根据市场预测,从2024年到2029年,采用CXL的DRAM 将实现惊人的212%年复合增长率。当前,已经有近半数出货的服务器已经具备对CXL接口DRAM的支持,标志着这一技术在数据中心基础设施中占据越来越重要的地位。未来几年内,预计更多服务器将逐步采用CXL接技术 ,从而赋能更高效的内存使用与数据传输,帮助企业应对不断增长的数据处理需求。

面对这样的趋势,AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监 Manuel Uhm表示,现在,由于数据中心在支持大语言模型时对内存的需求越来越大,所以AMD在第二代AMD Versal Premium系列产品中,“汲取”了CXL内存共享和池化的能力。

AMD自适应与嵌入式计算事业部( AECG ) Versal产品营销总监 Manuel Uhm

加速主机连接、释放更多内存、保障数据安全性

事实上,AMD在今天(11月12日)最新发布的第二代 AMD Versal Premium系列产品已经能够通过PCIe Gen 6和CXL 3.1实现主机连接加速,速率均达到64Gb/s。在内存释放方面,第二代 AMD Versal Premium系列产品提供了LPDDR5X(8533 Mb/s)和DDR5(6400 Mb/s)来提升内存性能,同时支持CXL内存扩展模块,以适配更多存储器接口。

此外,第二代 AMD Versal Premium系列还支持CXL 3.1存储扩展模块,以扩展内存容量。由于该系列采用了CXL 3.1接口,这使得系统能够兼容多种DRAM供应商的产品。AMD自适应和嵌入式计算事业部( AECG ) 高级产品线经理Mike Rather举例称,使用LPDDR5X内存时,可以实现高达256比特的宽度;通过两个8通道的CXL连接,速率可以达到64 Gb/s。此外,这种架构下的外部存储器带宽可以超过500 Gb/s。

DSP密度的提升,对于信号处理需求较高的应用场景尤为重要,而GTM2收发器的灵活性则满足了当前多协议支持和带宽扩展的需求。在DSP计算方面,第二代AMD Versal Premium系列产品实现了更高的每平方毫米计算密度,提升了整体计算能力。不仅如此,该系列还引入了GTM2的新收发器,支持数据线速覆盖1.25 Gb/s~128 Gb/s,兼容NRZ和PAM4编码,并保留了以往熟悉的设计流程,以确保开发者能够轻松上手,使整个开发过程更加可靠。

此外,第二代AMD Versal Premium系列产品还显著提升了与AMD EPYC CPU的协同工作能力。通过PCIe Express连接,第二代AMD Versal Premium系列产品和CPU之间实现了高效的通信,可用于卸载计算、网络和存储工作负载。PCIe IDE和内存DRAM加密的加入,也使得数据从端到端的传输过程中得到充分的安全保障。同时,在第二代AMD Versal Premium系列产品和EPYC处理器之间也减少了共享内存空间的搁置内存,进一步提高了系统的整体效率。事实上,这种协同能力在需要频繁进行内存交换的AI推理和大数据分析工作负载中,能够极大提升效率。

对于数据中心和AI应用场景而言,内存的速度与功耗至关重要。DDR5的引入不仅能提高带宽,降低功耗,通过CXL扩展还能为系统提供了灵活的内存扩展能力,以应对不断增加的AI模型对内存容量的需求。在内存方面,第二代AMD Versal Premium系列产品支持DDR5和LPDDR5内存,其数据速率是上一代DDR4和LPDDR4的2倍,同时功耗大幅降低20%~30%。

在安全性方面,第二代AMD Versal Premium系列产品在PCIe连接中增加了PCIe完整性和数据加密(IDE),并在DDR存储器中集成了硬内联ECC和加密功能。此外,该系列也保持了早在第一代Versal产品中就已引入的400G高速加密引擎,用于确保网络数据的安全性。

“通过这些创新,第二代AMD Versal Premium系列产品能够为大数据量和高计算密度的应用场景提供更强的性能、更高的效率和更好的安全保障,尤其是在数据中心、通信和测试测量等领域将展现出巨大的潜力。”Mike Rather如是说。

据悉,第二代AMD Versal Premium系列包含了多种规格的产品,其逻辑单元数量从140万到330万,DSP引擎数量从3300到7600不等。同时,这些产品配备了丰富的硬件资源,包括片上内存、内存控制器、双核A72应用处理器、双核R5F实时处理器,以及从32到72个的GTM2收发器,支持PCIe和CXL接口。此外,还具备100G和600G的以太网MAC、400G高速加密引擎和LDPC解码器。

多元场景 加速潜力释放

对于具体应用场景而言,第二代AMD Versal Premium系列可以有效扩大数据中心的 CXL范围,通过PCIe Gen6与CXL 3.1协同,相比CXL 2.0实现了两倍的带宽扩展,并能够通过NUMA轻松与现有软件集成。

Mike Rather举例称,在操作模式方面,第二代AMD Versal Premium系列支持 CXL.io、CXL.mem 和 CXL.cache。在器件模式方面,Versal Premium 可以作为内存控制器,也可以使用主机模式,连接CXL存储器扩展模块。在具体用例中,我第二代AMD Versal Premium系列还支持多主机单逻辑设备(MH-SLD)架构和系统可组合性。

对用于 GPU 集群部署与横向扩展的自适应网络,第二代AMD Versal Premium系列产品结合自适应网络解决方案,通过2×400G接口显著提升了带宽,简化集群架构,减少网络瓶颈,支持自定义协议及优化的RDMA,有效提高数据传输效率。该产品在高带宽和灵活性方面为GPU集群提供了强大支持,适用于AI模型训练和大规模数据分析等场景,满足复杂计算需求。

在测试与测量场景下,第二代AMD Versal Premium系列产品完美适应紧凑型系统,能高效处理信号与滤波任务。并支持C-PHY和D-PHY接口,灵活应对不同的摄像头和显示器测试需求,推动测试仪器向更高性能和更广兼容性发展。

对于开发人员而言,AMD为包括第二代Versal Premium系列产品在内的Versal器件提供统一设计工具——Vivado。随着不断的改善和更新,原本用于FPGA的开发套件Vivado,已经适用于所有Versal产品,通过采用全新的布局布线(P&R)算法、改进多线程性能,以及增强的增量设计流程,显著缩短了编译时间。此外,Vivado还引入了适用于顶层设计和GTM2模块的RTL流程,进一步提升了质量和易用性。改进了包括工具驱动的时序收敛、更高效的动态功能扩展(DFX)流程,以及分段配置技术,以加快CPU启动和PCIe唤醒时间。

据悉,伴随着今日第二代Versal Premium系列产品的正式发布,AMD还同期向用户提供早期文档。

此外,据Mike Rather透露说:“2024年第四季度将推出功率估算工具,2025年下半年提供完整的AMD Vivado工具套件。到2026年上半年,将提供芯片样片和开发套件,并预计在2026年年中实现芯片的量产。”

(注:本文图片均来源AMD)

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部