OCM规范产品化扇动“蝴蝶的翅膀”,通用服务器也要“变天”

OCM规范产品化扇动“蝴蝶的翅膀”,通用服务器也要“变天”
2024年12月26日 17:26 IT创事记

多年以后,当我们看到AIDC里的服务器都不再是往昔的模样,也许会想起2023年初的一次会面。那时,一家互联网大客户与服务器厂商的例行交流,扇动了“蝴蝶的翅膀”,一场波澜壮阔的通用服务器变革由此拉开帷幕。

与炙手可热的AI服务器相比,通用服务器看上去不温不火,但实际上正暗流涌动——AIGC的爆发推动云计算业务回暖和企业数字化转型加速,应用场景的多元化带来算力需求的差异化,客户希望厂商能快速上线匹配不同场景的通用服务器产品,以应对纷繁复杂的挑战。

举个例子:在容器化场景,客户倾向于采用轻量化的服务器;而在高性能计算场景,客户则更想使用配置多核心、高主频CPU的服务器。伴随业务创新的节奏越来越快,客户当然期望能在更短时间内完成服务器的迭代升级,并在不同场景间丝滑转换。

这似乎是不可能完成的任务。在摩尔定律主导IT产业的几十年时间里,“18个月”的换代速度似乎难以撼动,但云计算和人工智能的协同发力,使客户对先进算力产生迫切需求,为打破既有游戏规则提供了契机,整个产业迎来产品架构乃至产业链生态重塑的历史性机遇。

正是在这样的背景下,凝聚算力产业上中下游共识的国内首个服务器计算模组设计标准规范OCM(Open Computing Module)于2024年应运而生,旨在建立以处理器、内存为核心的标准化算力模组单元,推动x86、ARM等不同架构处理器兼容,真正让不同算力共享统一平台。

作为国内服务器市场的翘楚,浪潮信息是OCM的首批成员,并第一个交出了OCM产品化的答卷——首款基于OCM的NF3290G8服务器正式面世,实现处理器算力模组部件化,有助于降低创新试错和推广适配成本,研发周期缩短至6~8个月,为快速匹配多元场景创造必要条件。

寻找“普罗米修斯火种”:重新定义服务器算力单元

犹如普罗米修斯为人类带来了火种,CPU的部件化堪称打造崭新算力单元的“新火种”,模块化解耦则是让OCM梦想成真的具体路径。基于OCM架构的NF3290G8能同时支持Intel和AMD最新处理器,短时间内完成产品化蜕变,离不开对模块化解耦的积极探索。

来自物理层面的挑战首当其冲。为了实现多样化场景的适配,主板、电源、风扇、BMC管理等不同模块必须解耦,进行灵活组合,而这意味着主板布局将发生颠覆性的改变。根据测算,要把原来单路设计的计算主板面积从405mm×274mm减少到310mm×210mm,给其他模块的创新布局腾出空间。在面积锐减41%的情况下,浪潮信息研发团队率先设计出立体竖插形式的BMC管理板,不仅为NF3290G8机箱的硬盘存储以及IO扩展提供更多灵活配置的空间,还兼容2块计算板并排放置。

近乎极限的物理空间,也给电源设计(尤其是电压转化)带来挑战。由于Intel和AMD芯片内部核心数众多,不同芯片功能区需要多达15组电压的转化,从0.9V到12V,恰似一条条溪水在不同山脉间攀爬流动,每一处变化均需精确调控。当计算主板的“地形”面积显著缩小,把控高低起伏的变化就尤为困难。浪潮信息研发团队使用分布式VR和集成式VR组合的设计,实现电压高效转化,并不断优化电源走线方向,既节约空间又增强电流信号的可靠性。同时,为了让电流更加稳定,研发团队还对供电路径进行优化,解决了电源线路在极限空间的串扰问题。

“螺蛳壳里做道场”固然难能可贵,但化解“鸡同鸭讲”的逻辑层面难题尤需智慧。新的计算模组要支持不同类型芯片,而各个芯片的针脚数、互联、协议、PIN、系统架构差异明显,想彻底打通屏障殊非易事。浪潮信息SI研发专家借助阻抗归一化设计,保障互连通道的阻抗连续性及一致性,并针对各板卡系统间插入损耗等参数进行标准化设计,降低各模块互连的风险,最终实现不同处理器共享统一对外接口的目标,且能兼容下一代PCIe6.0速率要求。

在归一化的实践道路上,管理协议归一化的难度系数颇高。以读取CPU温度为例:由于Intel和AMD分别使用PECI、APML协议,为实现一机多芯,服务器需要有个“翻译本”帮忙。NF3290G8采用浪潮信息InBry开放固件管理平台,能兼容适配不同协议,并根据配置要求按需加载。BMC固件会在编译时自动切换不同处理器平台的开关,并将交互协议驱动编入codebase镜像中。驱动层拿到温度等信息后,硬件适配层会将信息统一抽象编码,供上层程序调用,协议互通由此达成。

OCM产品化的“阿克琉斯之踵”与“雅典娜之盾”

当Intel和AMD在OCM算力模组中达成“世纪和解”,“一机多芯”的梦想开始照进现实。但不容回避的是,在攻克最大难题之后,OCM的产品化进程也并非一马平川,全新的挑战接踵而来。

在不同模块和零部件重新组合、兼容多代最新CPU与GPU的前提下,散热很可能成为OCM服务器的“阿克琉斯之踵”,构建系统化、精细化的散热路径迫在眉睫。特别是针对各个高热密度区,需要在有限的空间内找到统一解决方案,更加考验散热方案模块化设计的灵活性和普适性。

直面上述痛点,浪潮信息散热工程师设计出一种高效的EVAC散热器,基于机箱结构限制和散热仿真测试打造散热器主体以及远端散热鳍片,满足不同芯片多样化的散热需求,并结合分区散热技术对每个瓶颈点进行优化。例如:将实时风扇转速权重动态配比和多路径风道技术相结合,有效降低BF3卡、DPU卡等模块的散热功耗,并通过3D局部发热点监控与策略优化,即时调整风流资源分配,从而整体上提升散热效率。

尤值一提的是,NF3290G8的内部功耗监控可精确采集硬盘、GPU、DPU等部件的用电分布,基于按需配电策略显著降低功率浪费,再结合新材料和液冷等创新设计改善散热性能,为OCM产品化落地扫清隐患。

除了要规避“阿克琉斯之踵”,基于OCM架构的新一代通用服务器还必须拥有攻守兼备的“雅典娜之盾”。在大模型训练与推理加速渗透的背景下,智能化管理即可扮演这样的角色,一方面通过故障预警构筑服务器的安全底线,另一方面借助多样化手段促进AI场景化落地。

作为OCM架构服务器的开路先锋,NF3290G8对内存、硬盘、风扇、电源的故障预警定位和管理进行全方位的智能化升级。在智能预警方面,其基于对上万台服务器故障数据的建模分析和算法训练,实现内存故障提前预警、错误实时隔离及故障智能修复,降低内存导致宕机故障率80%;在智能管理方面,通过RTOS实时操作系统,达成开机3秒内智能管理调控风扇转速,降低30%噪音且利于散热——这是“雅典娜之盾”对“阿克琉斯之踵”的Call back,也解除了通用服务器全面跃迁的后顾之忧。

OCM持续进化的崭新起点与远大前程

不难看出,开创先河的NF3290G8不仅为OCM规范的落地树立了颇具借鉴意义的标杆,而且突破性地实现核心CPU的兼容替换,大幅缩短通用服务器的迭代周期,为互联网、金融、通信、能源、交通等行业用户逐浪AI新时代提供了强劲支撑。

浪潮信息服务器产品线产品规划经理罗剑认为,这只是OCM漫长征途的新起点,前方还有更高的山峰需要跨越。比如:以OCM算力模组为牵引,向双路、四路弹性扩展,为下一代元脑服务器开疆扩土奠定根基;同时,将OCM的兼容范畴拓展至X86以外的领域,为打造异构芯片新生态添薪加柴。

站在更长远的视角,构建原生液冷OCM新标准,推进处理器与内存完全解耦,也许是更具颠覆性的进化方向。目前,在两U服务器中,做到500~600瓦的CPU风冷散热基本上已是业界极限,但未来满足AI需求的服务器功耗可能高达3000瓦以上——用两到三年时间,聚合液冷产业链打造OCM新标准势在必行。此外,打破既有的“内存墙”,深耕内存资源池化技术,实现处理器与内存完全解耦,也是OCM更上层楼的可行路径。

如果穿越到N年后,AIDC中的服务器可能是这样的:在高密部署的环境中,大量OCM模块占据整机柜的主要空间,解耦后的内存则平铺在主板的正面和背面,而原生式液冷设计悄然带走整机热量。如此“魔幻”的场景也许并不遥远,高算力、低功耗的数智新世界值得期待。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部