后训练时代,联想如何搭建算力赛道的“超级枢纽”?

后训练时代,联想如何搭建算力赛道的“超级枢纽”?
2025年05月21日 11:55 黄海峰看科技

文/黄海峰通信生活

从ChatGPT掀起全民AI热潮,到DeepSeek、千问3等本土大模型接连崛起,算力早已超越传统硬件范畴,成为国家战略竞争的新制高点。据中国信息通信研究院发布的《中国算力发展指数白皮书(2022 年)》显示,预计到2030年,全球算力规模将达到56 ZFLOPS,年平均增长率为65%。

在这场算力争夺战中,联想作为行业重要参与者,正通过一系列创新举措构建自身竞争优势。

近日,联想以2025创新科技大会为舞台,在联想AI算力基础设施技术创新论坛暨春季新品发布会上,推出六大创新技术与两大重磅升级,正式推出堪称“算力矩阵”的重磅武器——联想万全异构智算平台3.0、全新算力服务器家族、联想凌拓全新存储产品家族和针对多种规模构建的AI算力集群的智能网络体系以及创新技术与产品,并升级AIO V6系列产品和联想问天WX系列虚拟化超融合8.0.2版本

我们好奇,随着大模型规模的不断扩展、应用场景的日益复杂,AI算力基础设施行业面临哪些挑战?联想新发布的联想万全异构智算平台3.0以及服务器产品实力如何,能否应对挑战?未来,联想在服务器及智算平台这两个赛道又将有怎样的战略规划与布局?

AI浪潮下,算力基础设施面临五大挑战

IT基础设施作为算力的物质基础和核心载体,在行业数字化发展的各个方面都起着不可或缺的作用。如今,随着以DeepSeek为代表的开源大模型走进千行百业,算力基础设施面临新挑战。

第一,算力需求多样化。从基础模型的预训练到推理模型、多模态模型的应用,以及从简单的对话机器人到AI Agent、具身智能的发展,对服务器等设施算力需求也变得更加多样化,这就要求算力基础设施能够提供预训练算力、训推算力、推理算力等更全面多样的AI算力。

第二,算力基础设施需要更高性能。模型本地部署的应用潮流,对大模型一体机的单机性能提出了极致要求,需要服务器具备更强的计算能力、更高的存储容量和更快的读写速度,以满足本地模型的高效运行。

同时,万卡、十万卡级算力集群的出现,要求在超大规模算力集群里,实现“算存网”能力的高效协同,以避免因某一环节的性能瓶颈而影响整个集群的算力发挥。

第三,算力基础设施需要更高能效。AI算力的增长对电力需求提出了更多挑战,如何在满足算力需求的同时,降低数据中心的能耗,实现绿色计算,是服务器及算力基础设施面临的重要问题。

第四,算力基础设施需要更高可靠性。在AI计算中,尤其是大规模的分布式训推过程中,硬件故障可能导致整个集群计算水平大幅度下降。这就要求算力基础设施具备更高的硬件可靠性和故障自愈能力。

第五,算力基础设施需要提高通信效率。以DeepSeek为代表的MoE架构大模型,在训推过程中的通信复杂度呈指数级增长,与传统的稠密模型相比,各个专家间需要不断地通信、协同计算,导致多个GPU间频繁交互,这对AI服务器之间的通信网络提出了更高的要求。

技术突围!联想两大利器破解算力困局

如何破解大模型时代算力基础设施面临的诸多挑战?在联想看来,唯有创新才是破解挑战的唯一选择。

回首过去,当行业面临大模型预训练和传统模型推理的算力诉求时,联想通过技术创新,推出联想万全异构智算平台四大技术,筑牢大模型发展底座。

如今,联想依旧以创新为引领,打造大模型时代的坚实底座,在本次大会上推出联想万全异构智算平台3.0与全新算力服务器家族两大核心“利器”。

利器一:发布联想万全异构智算平台3.0

联想中国基础设施业务群战略管理部总监黄山表示,联想万全异构智算平台3.0进一步推出五大差异化技术,帮助用户在AI预训练、后训练、推理的过程中取得最高效、最稳定的算力。具体而言,五大技术将带来算力设施如下升级。

其一,AI推理加速算法集,可对MLA等业界新型方法进行工程实践落地,并结合联想积累的混合精度量化、分布式并行等方法二次优化,将DeepSeek等大模型的推理性能提升5-10倍,单台8卡GPU服务器采用该平台后可支持190路用户同时使用DeepSeek满血版,相比业界最优社区方案保持20%性能优势,满足用户对推理高吞吐量、低延时的诉求。

其二,AI编译优化器,能在构建AI计算图过程中,采用临近算子融合、高效算子替代和简化计算路径等方式,结合与GPU战略伙伴的研发成果优化算子,经其优化后,AI训练后推理的计算开销至少降低15%,且分布式训练或推理规模越大,效果越显著。

其三,AI训推慢节点故障预测与自愈系统,基于联想三年以上积累的AI训推故障特征库并训练故障预测模型,实现用AI模型预测AI故障。系统通过异步训练检查点或推理备份准备故障恢复环境,故障发生时自动排除故障点,实现百卡集群故障秒级恢复、千卡分钟级恢复、万卡十分钟级以内恢复。

其四,专家并行通信算法,针对MoE架构大模型训推中all to all通信方式带来的指数级通信复杂度问题,研发细粒度的计算通信协同优化算法,在底层核函数层面实现计算与通信过程高度并行,将推理延迟降低300%以上,网络带宽利用率从50%提升到90%。

其五,智能资源调度引擎,可基于实时负载感知与异构算力特征,动态优化GPU/CPU/DPU等资源分配策略。通过拓扑感知的任务调度算法,将多模态模型训推任务与硬件架构精准匹配,使混合算力集群利用率提升25%以上,端到端任务执行效率提高30%,全面释放异构算力潜能。

利器二:全新算力服务器家族

联想中国基础设施业务群服务器产品部总经理周韬在发布会上指出,联想在服务器发展中一直通过引领服务器技术创新,为客户重新定义新的算力。如今,面对大模型后训练时代,联想选择再次进化服务器,并重新定义算力。本次联想推出的全新算力服务器家族,可面对不同AI应用场景,充分释放AI服务器的算力潜能。

其一,面对数据处理环节,联想推出ThinkSystem SC750 V4在内的数据处理算力服务器家族。这些服务器可在单一机柜中实现高达48个计算节点,可配置12288个英特尔志强6性能核心及8800兆赫兹的MRDIMM,采用专利无滴漏不锈钢盲插系统等保障稳定,13U16节点高密度全液冷设计提升算力效率。

其二,面对AI训练环节,联想推出联想问天WA7880a家族在内的AI训练算力服务器家族。这些服务器配置两颗英特尔志强处理器、8块GPU卡通过OAM互联提供澎湃算力,采用冷板式CPU/GPU液冷方案及浸没式液冷技术实现绿色节能,结合异构智算平台实现异构算力调度、故障感知解决,利用AI编译优化器降低训练开支。

其三,面对推理应用环节,联想推出联想问天 WA5480 G5、联想问天WR5220 G5、联想ThinkSystem SR650 V4、SR650a V4、SR630 V4在内的推理应用算力服务器家族。这些服务器支持英特尔Xeon6处理器和主流PCIE GPU处理器,CPU核集成加速器,与GPU配合良好,借助独特技术保障可靠性,提供全液冷方案,结合英特尔Xeon6的能效优势,为客户提供更高性能和功耗比。

构建算力新生态:联想勾勒全新战略布局

面向未来,联想算力基础设施有着怎样的发展路径?通过与联想专家交流,笔者发现,联想在联想万全异构智算平台,以及服务器发展中有着清晰的发展规划与战略布局:构建“四个更”的混合式基础设施,即更强大、更高效、更稳定、更绿色,助力混合式人工智能快速落地。

首先,在算力服务器领域,联想将构建多样化的“数字武器库”,让算力设施更强大。在产品平台拓展维度,联想将从目前主要集中在英特尔平台,拓展至“1 + 3 + N”规划方向。其中,“1”为一个系统架构,“3”支持三种CPU的形态,“N”代表多种GPU的组合。

笔者认为,这种布局将让联想拥有不同类型“武器”,可通过产品自由搭配,满足客户多样化的“作战需求”。

此外,联想将注重场景化设计优化。比如,数据处理场景下,注重提升CPU算力密度;AI训练场景着重解决GPU功耗及散热问题;推理应用场景强调服务器平台的通用性,提供更长的部件兼容性列表,适配市面上常见部件。

其次,创新算力服务,让算力设施更高效。联想在算力服务方面,首次发布算力服务“成本-效能”双优运营系统,持续助力客户优化运营效能与成本。其中智能调度引擎与FinOps引擎,将数据输送到混合云,完成企业AI模型训练,待模型培育成熟后,可弹性部署在边缘设备或终端硬件,实现分布式推理运算,可提升集群资源利用率13%,并精准识别58%无效实例,最大化用户效益。这一创新对于提升企业AI基础设施的投资回报率具有重要价值。

再次,联想将基于联想万全异构智算平台,打造数字世界的“超级枢纽”,让算力设施更稳定。在技术创新方面,异构纳管技术就像是给不同型号的“数字列车”铺设统一轨道。联想希望让国产GPU伙伴的“列车”稳稳驶入轨道,还要与部分伙伴共同打磨轨道的每一处细节,让列车跑得又快又稳。

比如,联想凌拓从数据管理到存储架构均进行了全方位升级,包括联想问天DXN AI存储解决方案、DXN2000系列、DXN全闪系列,Lenovo ThinkSystem DE/DM/DG系列、NetApp ASA/AFF/FAS系列、AIPod DeepSeek一体机在内的联想凌拓全新存储产品家族,不仅提供覆盖纯训练、训推一体以及推理场景的综合架构方案,还与GPU企业展开深度合作,确保技术和产品能够快速落地、满足本地各行业实际需求。

又比如,联想通过RoCE/IB多架构融合及低延迟优化技术,构建了覆盖多种规模AI算力集群的智能网络体系。其数据网络产品兼容多种主流AI网络架构,包括基于无阻塞通信的胖树架构(Fat-Tree)、具备高扩展性与低时延特性的蜻蜓增强型架构(Dragonfly+),以及分布式解耦的DDC架构(Distributed Disaggregated Chassis),充分满足差异化场景需求。其中,本次发布的高密度400G交换机联想问天NE8770-64QC,专为AI场景深度优化;也发布了两款战略级新品——面向下一代融合数据网络的多业务核心交换机联想问天NE7550G-8C,以及支持超大规模组网的新一代高性能核心交换机联想问天NE9770G-4C。

在模型与场景拓展方面,联想将持续关注各类大模型的发展,将已有的优化技术和方案应用到新模型中,针对新模型的特点进行进一步优化。

此外,联想还将从当前的智算中心,向推理应用场景拓展,提升推理技术亮点,实现对AI全流程的算力优化,以满足不同行业、不同客户在不同场景下对AI算力的需求。

最后,以浸没液冷技术双突破,让算力设施更绿色。在绿色计算领域,联想浸没液冷技术取得双重突破:单相浸没方面采用"飞鱼"仿生散热设计,模拟鱼类游动姿态优化流体设计,支持下一代600W芯片散热,最大功耗提升20%。此前,联想与清华大学开展深入技术预研合作,研发流场优化方案及高性能散热器,使冷却液的冷却效率最大化,获得最优PUE,同时在冷却液、Tank设计方案、CDU等各方面探索低成本方案,推动浸没液冷的快速普及。

相变浸没方向通过“双循环”相变浸没制冷系统实现PUE低至1.035的业界领先水平,为更冷静、更可靠的服务器及数据中心产品提供有力支持。联想还专门在天津建立了浸没式液冷实验室,通过真实场景的实验获得可靠数据,以推动浸没式液冷的研发。

从单点突破到生态共赢:联想为算力竞争提供新范式

在全球算力竞争白热化阶段,联想推出的联想万全异构智算平台3.0与全新算力服务器家族,标志着算力基础设施正从“硬件堆砌”迈向“生态协同”、从“单一功能”转向“全链路优化”。

联想的战略布局精准直击行业痛点。比如,其“四大差异化技术”将算法创新、硬件优化与场景适配深度融合,以“软硬一体”模式打破传统厂商仅依赖硬件升级的局限,树立技术融合创新标杆。

同时,服务器国产化进程的推进,将让联想构建起“技术自主+生态开放”的双轮驱动模式,有望成为中国企业在全球算力竞争中的突围范式。

纵观联想在算力基础设施的布局,似乎给整个行业带来一定启示:算力竞争不仅是技术比拼,更是生态体系、战略眼光与响应速度的综合较量。

在这一过程中,唯有整合多元技术、构建开放生态且能快速响应场景需求的企业,方能在智能革命浪潮中抢占先机,赢得未来。

0条评论|0人参与网友评论
最热评论

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部