争夺AI智算网络“第三层”:“光”能抢走“电”的饭碗吗?

争夺AI智算网络“第三层”:“光”能抢走“电”的饭碗吗?
2024年10月25日 08:38 IT创事记

如果将整个AI产业比作交响乐团,那么大模型就相当于呼风唤雨的指挥棒,而底层基础设施则是随需应变的旋转舞台,纷繁的AI应用即在这样的环境中演绎华章。

当大模型训练与推理不断迈向纵深,智算集群会在“指挥棒”的引导下从万卡向十万卡乃至几十万卡持续跃迁。作为智算集群纲举目张的核心角色,网络无疑发挥着举足轻重的作用,其基本架构和主要职能也伴随集群的进化加速蜕变。

在相当长一段时间里,基于电交换机的Spine-Leaf两层组网模式赢得广泛认可,堪称大型集群平稳运行的中流砥柱。然而,当大模型训练对算卡的需求攀升至十万卡的关口时,集群组网必须从两层向三层扩展,即在Leaf、Spine层的基础上增加Core层,为大模型施展身手奠定坚实底座。

值得关注的是,由于Spine层和Core层之间需要借助光模块进行互联,电交换机和光模块数量的增加不可避免地会带来整体能耗的上升。对新型智算中心和转型中的数据中心而言,既要完成节能减碳的长远目标,又面临用电指标的短期约束,自然想在“第三层”网络上图新求变。

与“电”相比,“光”先天带有绿色“Buff”,且具备带宽无上限的想象空间。于是,“在第三层网络用光取代电”、“光电融合组网”的论调一时甚嚣尘上,曾经小众的OXC技术也乘势而起,被业界寄予厚望。那么,智算集群组网真的“一光就灵”?“光进电退”会成为新的潮流吗?

正所谓“不畏浮云遮望眼,自缘身在最高层”——站在更开阔的视角,审视AI智算场景对网络的深层需求,有助于我们穿越喧嚣的迷雾,找到破解难题的良方。

祛魅OXC:“光交换”只是看上去很美

在基础网络演进过程中,“光进铜退”的故事令人印象深刻,以致于“光”被赋予特殊的光环,似乎可以始终扮演变革者的角色。

这也许是“光交换”拥趸众多的重要原因,很多人一看这个提法就心生好感。不过,倘若剥开“光交换”旗手——OXC的神秘外壳,不难发现其并非“硬核”科技。

事实上,OXC的全称为“Optical Cross-Connect”,即指光交叉连接设备。以最典型的MEMS OXC为例:其内置两个微镜阵列,阵列A通过调整转角将入射信号偏转到阵列B对应的微镜单元,将光从入端口映射到出端口,从而实现两条路径之间的光信号交换。

做个简单的类比:最早打电话的时候,离不开电路交换机的支撑和接线员的服务——接线员根据来电者的要求,人工转换线头插口,完成两端的对接;OXC的工作原理与之相似,只不过用两面镜子替代了接线员,其本质还是电路层面点对点的交换。

显而易见,OXC并不参与流量全局选路、优先级调度等复杂环节,其价值体现在灵活配线领域,与自动配线架的作用并无明显差别。根据权威机构发布的研究报告,自动配线架在规模、插损、功耗、成本等指标上均优于OXC技术,祛魅后的“光交换”只是看上去很美。

AI智算的“三重门”:“光交换”尚未掌握通关密码

从技术创新的进化史来看,确实有些技术在原理上并无新奇之处,但在实际应用中大行其道,云计算即是其中的典型代表。在AI新时代,OXC也会有“反转”的戏份吗?

透视AI智算场景下大模型训练对网络架构及其功能的核心诉求,会发现OXC尚未掌握“三重门”的通关密码,依靠“光交换”很难抵达数智新世界的彼岸。

第一重门:在大规模、高并发流量的冲击下,缺乏调度策略的“光交换”寸步难行。

Meta公司发布的数据显示:在Llama 3.1模型为期54天的预训练中,共出现466次任务中断。其中,仅有47次为计划内中断,而高达419次的中断则属于意外情况。

不难看出,因“意外情况”导致大模型训练中断,已成为智算场景的最大痛点。从集群组网的角度看,在大规模、高并发流量的冲击下,避免“意外中断”的最佳路径是“策略调度”,即基于逻辑拓扑进行动态适配。

令人遗憾的是,由于OXC采用机械控制方式,同一时间只能完成一组端口间点对点转发,无法支撑智算场景多组流量并行转发的需求;假如用OXC替换电交换机,还会导致原来标准的组网架构发生变化,路由协议、拥塞调度、负载均衡等策略均需重新调整,由此可能衍生诸多不确定性因素,造成大模型训练难以承受之“意外”。

第二重门:在算子、算法构造的复杂环境中,时延问题让“光交换”深陷困境。

伴随生成式AI落地进程的加快,大模型也呈现出多元化发展的态势。除通用大模型外,垂直行业大模型、单一场景大模型纷纷涌现,复杂多样的算子、算法亦如雨后春笋。

以智算场景集合通信的视角看,不同的算子、算法会催生迥异的关系模式,这就要求整个网络通信链路必须具备快速应变、互联互通的超强能力,且尽量降低时延。

受限于物理机械控制方式,OXC的交换时延通常在10毫秒以上,与电交换机的百纳秒时延相比,高出五个量级;再加上整网存在端口断开和重新连接,光模块、电交换机侧需重新协商和路由收敛,单纯缩短OXC路径切换时延的效果也大打折扣,难以满足AI大规模训练对稳定性和低时延的要求。

第三重门:绿色节能的美好愿景,可能因“光交换”的高插损问题而无法兑现

根据中国信通院发布的报告,截至2023年底,我国算力中心耗电量已达1500亿千瓦时,预计到2030年将超过4000亿千瓦时。当集群规模跨过十万卡大关,三层网络渐成主流,节能减碳的压力会继续增加。

正是基于上述背景,第三层网络上“光交换”的呼声日益兴起。在新建的“光高速公路”上,可以实现低能耗和带宽平滑演进的双重目标,何乐而不为?

考虑到光传输损耗会带来光模块等综合成本的显著提升,就难以对OXC的替代前景保持乐观。以万卡集群为例:在跨机房走线的情况下,电交换机间互联一般使用2km FR光模块即可;而OXC为弥补高插损弊端需使用更长距的光模块,按目前业界最低1.5dB的差损计算,设备间互联也要使用10km LR定制光模块,叠加前期引入新技术的成本投入,OXC带来的功耗改善和成本降低都非常有限。

网络交换未来图景:“电”与“光”期待顶峰相见

综合而言,以OXC为代表的“光交换”技术看似光鲜靓丽,但实际上存在不少缺陷,“光电融合”的道路上也有诸多待解难题。例如:OXC内光链路的切换依赖控制面的任务信息输入,怎样获取任务信息,又由谁来给出指令?把“光”引入到智算场景后,如何与“电”协同进化,推动整体系统迈上更高台阶?

这些问题很难在短时间内给出答案,避免盲目追捧新技术,基于现状合理选择集群组网方案才是正途。据LightCounting预测,到2029年OXC的全球市场空间约为5亿美元,且其中大部分是Google自建,产业规模仅为电交换的1/20。

尤值一提的是,处于市场优势地位的电交换机仍在进化中,让客户更有信心将其作为智算集群三层组网方案的首选。在硬件层面,电交换机芯片加速迭代,Tomahawk5速率高达51.2T,单芯片支持64端口800G或128端口400G,能确保三层组网支撑50万卡集群,预计Tomahawk6发布后可触及百万卡集群门槛;在软件层面,国内外厂商积极应对智算场景数据高吞吐的挑战,在两层组网的负载均衡路径方面已拥有成熟经验,适应三层组网的负载均衡算法有望在一两年内取得重大突破。

眺望网络交换的未来图景,“电”与“光”很可能在各自的进化过程中催生“新物种”——二者顶峰相见之时,将胜却人间无数。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部