集群加速蜕变:昇腾超节点拨动“AI时钟”

集群加速蜕变:昇腾超节点拨动“AI时钟”
2025年05月23日 19:10 IT创事记

即使是最固执的保守派,也会承认属于AI的时间已经开始了。时钟正在加速转动,新的主角陆续闪亮登场。

诞生于上世纪60年代的计算集群就在经历这样的“蜕变时刻”。从以大型机为核心的集中式集群独霸天下,到采用分布式架构的客户机/服务器模式渐成主流,再到云计算和虚拟化技术推动超级集群大行其道,故事至此似乎达到了最高潮。

然而,当AI大模型训练与推理成为新的算力指挥棒,传统集群既有的演进路线显然遇到了难以克服的瓶颈。依托服务器、存储、网络等设备堆叠而成的“巨无霸”,在面对大规模AI训练时,暴露出资源利用率低、故障频发等弊端,也无法满足千行万业拥抱AI推理的爆发性需求,曾经的中流砥柱反而成了人工智能通用化进程的障碍。

值此关键节点,探索AI集群进化的“另一条道路”可谓迫在眉睫。致力于“为世界构建新选择”的华为给出了自己的答卷:基于实际可获得的芯片制造工艺,推动计算、存储和网络技术协同创新,打造“超节点+集群”系统解决方案,长期持续满足算力需求。

开创先河的“超节点架构”,无疑是集群创新的最大亮点。担纲重任的昇腾超节点通过高速总线连接多颗 NPU,让集群像一台计算机一样工作——跨节点通信带宽提升15倍,通信时延从2μs降至0.2μs,可实现384颗NPU点到点超大带宽互联;与此同时,昇腾超节点是业界唯一支持DeepSeek V3/R1在一个超节点域内即可完成所有专家并行的方案,堪称MoE大模型训练和推理的最佳搭档,其多管齐下的创新路径值得业界借鉴。

创新利器之一:打破通信效率瓶颈,铺设“立体高架桥”

相关统计显示,单卡硬件的算力近十年增长了约50倍,但节点内的总线带宽只增长了不到10倍,跨节点的网络带宽增幅仅约5倍。显而易见,集群网络通信的拥堵问题是AI大模型训练与推理的最大挑战。

传统集群通常基于以太网连接多组服务器,并借助Infiniband或RoCE等网络技术进行数据传输。在处理大量数据请求时,往往需要依赖多个节点之间的协作,而跨节点带宽受限于交换机端口速率和转发层数,有效带宽随节点数增长呈现指数级下降。

建设立体高架桥是解决交通拥堵的有效路径,昇腾超节点也通过构建两层高速网络化解通信瓶颈:一层是超节点内部的ScaleUp总线网络,确保所有卡全对等高速无阻塞互联,卡间超大带宽可达2.8T;另一层是跨超节点间的ScaleOut网络,可支持微秒级时延,资源弹性扩展。

有了新型“立体高架桥”的加持,昇腾超节点的高速互联能力显著增强,大幅改善并行计算时的通信效率。与传统集群方案相比,昇腾超节点的All2All集合通信性能提高5倍,send/recv集合通信性能跃升7倍,且明显降低整体通信占比,让计算少等待、不等待。根据测算,采用昇腾超节点的AI集群整体训练效率和推理吞吐能力分别较过往有3倍和6倍的提升。

创新利器之二:紧跟大模型变革潮流,作MoE结构的“黄金搭档”

以DeepSeek为代表的高性能、低成本大模型掀起了AI普惠平权的浪潮,也标志着MoE(混合专家)结构从“少量大专家”向“大量小专家”转变。这种算法层面的重大变化对算力基础设施提出更高要求,传统集群的堆叠架构和运行机制已难以为继。

过往的MoE大模型一般只有几十个专家,而DeepSeek R1的专家数量高达288个,即把更多的任务分配到更小的专家上。随着专家数量的大幅增加,专家与专家之间的通信自然水涨船高,若基于传统集群进行训练,很容易出现带宽不足、通信延迟等现象,导致算力浪费甚至训练中断。

从这个意义上讲,超节点架构的AI集群当属MoE大模型向“大量小专家”进化的“黄金搭档”。与一卡多专家的传统模式相比,更大带宽、更高性能的超节点完成了质的飞跃,通过新型高速互联总线实现一卡一专家高效分布式推理,单卡的MoE计算和通信效率都大幅提升,打开了算力与算法协同演进的想象空间。

以昇腾超节点为例:其能依据MoE结构中专家分布以及每层的计算需求,精细地将模型切分至不同节点,提高整体资源利用率;同时,还可运行多种并行策略且动态调整,针对实时的负载情况精准分配计算资源,全面加速AI训练和推理进程。

创新利器之三:突围看似坚固的“内存墙”,以“黑科技”闯出新天地

追溯至古早的单机时代,由“内存墙”造成的产品性能问题就给用户带来不少烦恼。类似的挑战也延伸至集群领域——依赖DDR4/DDR5内存的传统集群,在实际应用中因协议栈开销和多级数据拷贝,导致带宽的有效利用率仅为30%~50% 。

在传统集群架构中,数据需经历“显存-主机内存-网卡”的多级跳转,小包数据传输协议处理的时延较高,在AI大模型训练和推理过程中的短板尤为明显。对超节点架构而言,能否真正突破“内存墙”的阻碍,是衡量其创新成色的重要标尺。

面对沉积已久的行业痛点,昇腾超节点迎难而上,找到了破解“内存墙”难题的新路径。为了优化数据传输的整体效果,昇腾超节点支持全局内存统一编址,具备更高效的内存语义通信能力;通过更低时延指令级内存语义通信,昇腾超节点还可满足大模型训练和推理中的小包通信需求,提升专家网络小包数据传输及离散随机访存通信效率。

创新利器之四:增强大规模集群的“反脆弱性”,为AI加速渗透保驾护航

根据IDC咨询发布的研究报告,大型AI算力集群支持大模型稳定训练的时间不超过2.8天,传统集群的硬件故障平均定位需1~2天,复杂故障甚至需数十天。例如:Meta训练中断后需35次手动重启和70次自动重启,恢复流程耗时占总训练周期的22% 。

不难看出,增强AI集群的“反脆弱性”既是超节点架构的重要使命,也是保障大模型训练与推理顺畅运行的核心基石。令人欣喜的是,昇腾超节点的诸多创新技术协同发力,已取得丰硕成果:其采用多平面的链路设计,具备链路故障秒级切换、算子级重传等可靠性能力,确保大模型训练不中断,平均无故障运行时长从几小时提升到几天;同时,支持更敏捷的断点续训,故障恢复时长从小时级降低至30分钟。

著名哲学家尼采在其著作《偶像的黄昏 》中曾发出这样的感叹:但凡不能杀死你的,最终都会使你更强大。传统集群亟需改变,但集群并没有退出历史舞台,超节点的横空出世更为集群开辟出崭新的发展空间。在超节点赛道领跑的昇腾也将越来越强大,真正的创新者会赢得整个世界的尊重。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部