大模型浪潮下,AI与其背后的通信网络存在密不可分的联系,可以总结为Network for AI和AI for Network两层关系——
我们用网络加速AI训练推理,通过AI手段让网络变得更加安全可靠。
Network for AI,AI训练对于算力要求越来越高,从万卡集群到十万卡集群,再到百万卡集群,如何整合远距离分散的算力资源,实现规模算力跃升。
AI for Network,当前工业领域面临“如何让自己的产品变得更加智能”的问题,如何用AI改变网络,让网络更智能、更安全、更可靠,实现网络的“自动驾驶”。
在MEET2025智能未来大会上,华为NCE数据通信领域总裁王辉,为我们分享了他的看法。
为了完整体现王辉的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。
核心观点
网络与AI的关系,可以总结为Network For AI和AI For Network。我们用网络加速AI训练推理,通过AI手段让网络变得更加安全可靠。
在大模型训练方面,无阻塞网络提升大规模训练的效率。
跨远距离的算力协同,通过构建高速网络互联,把分散的算力整合成大规模算力。
在垂直行业应用AI和大模型时,面临决策实时性、推理严谨性和场景泛化性等挑战,解决问题的关键是大模型推理能力,与领域机理模型和工具的深度结合。
(以下为王辉演讲全文)
AI和网络的关系,就是“Network For AI和AI For Network”
大家上午好!今天大会的主题是智变千行,惠及百业,很多嘉宾从产品和厂商的视角,讲解了AI如何改变千行百业。
接下来,我会从工业领域视角,谈一谈在To B行业中,AI大模型与其背后的通信网络的内在联系。
这个话题非常重要,我在全球见过的超过100个行业客户,都面临着一个共同的问题,那就是在AI大模型时代到来之际如何武装自己,使得自己的产品、产业更智能。
我们看到以OpenAI为代表的AI大模型一路高歌猛进,但反观工业领域,大模型在垂直行业落地时遇到了很多实际的困难,甚至可以说是步履维艰。所以今天我想从垂直行业,从网络行业的视角来看我们一些思考。
因此,我想从垂直行业的视角来谈关于AI的一些思考。
讲到网络,大家比较熟悉的概念是我们现在用的5G、Wifi,但网络跟AI有什么关系?
总结成两句话,非常清晰,一个叫Network For AI,一个叫AI For Network。
Network for AI是指用网络加速现在的AI训练推理,AI For NetWork则是通过AI手段让网络变得更加智能和可靠。
大模型训练不中断,需要保持网络均衡
Network for AI,业界有很多不同的路线。
英伟达全力推广NVLink体系, AMD也在主推自己Infinity Link,国内华为也在推HCCS,在开放标准方面,还有UALink、超级以太等等;
这么多路线背后反映的逻辑是什么?
在集群节点内,Scale up的模式追求极致的通讯效率,进行AI训练时,采用计算和网络强耦合的方式,旨在大幅提升计算性能,厂商大部分都是相对封闭的技术路线。
在集群节点外部,Scale out的模式追求计算资源的互联互通,网络技术逐步朝着以太路线统一发展。
大规模集群训练当前普遍面临的挑战是如何长时间的稳定训练,正如开场时李开复老师所提到的,OpenAI也曾遭遇训练中断的问题。
据统计数据显示,现今的大模型训练平均不到两天就会中断一次,而这些中断的原因,除了显卡故障外,光模块和链路故障也占了相当比例。
从万卡集群到十万卡集群,甚至明年的百万卡集群,有两个关键的挑战:
如何确保大模型训练在长时间内保持稳定?
如何把多个跨上千公里的小规模训练资源连接起来,变成一个超大规模训练集群?
第一个问题的关键是借助先进的算法来维持整个网络的负载均衡,进而加速AI训练进程。
在这方面,我们已做到了业界最好的水平,通过NLSB算法能够将整体训练效率提升10%以上;
与此同时,通过故障预测算法让潜在故障在开始训练之前能够被发现、被提前排除,这样保持整个训练不中断,大幅度提升训练的效率。
第二个问题的关键是跨远距离的异构计算,这个会成为下一阶段的重要趋势,同时也是业界难题。
我们通过AI DC内网络与DC间网络的算法协同,以及业界首个跨上千公里的无损网络,实现远距离数据中心协同训练。
AI For Network
不仅是网络领域,每个垂直行业都在思考如何让AI落地的问题,小到做咖啡的机器人,大到钢铁行业的巡检机器人,都面临着类似的问题。
我们在网络领域对AI的探索早在2017年就开始了,当时是围绕“网络自动驾驶”这一解决方案展开的
经过这些年的实践,我们发现了一些在各个垂直行业应用 AI 和大模型时都会面临的共同挑战。
第一个,是决策实时性问题。工业领域和To C领域不一样的地方在于,工业领域很多决策必须在毫秒级的时间内完成;
如果不能实时获取本系统的数据, 决策的实时性也就无从谈起。
第二个,是推理严谨性问题。像做视频和图片,即使效果不太好,也不会引发严重后果。
但在工业领域,一个小小的网络配置下发错误,就可能酿成重大事故。一个核心网络,承载着几亿人上网的使命,一旦出现故障,影响极大,必须要做到推理的严谨性。
第三个,是场景泛化性问题。通信大模型不能只用于单一任务,而是要能够适应不同客户、不同场景的需求。
这三个挑战,是AI在垂直领域落地普遍遇到的问题。怎么解决这些问题呢?
这些挑战需要一个系统的解决方案,一个AI Native的智能网络系统,包括三个部分:我们称之为“一网一图一脑”,分别对应着智能网元,网络数字地图以及通信大模型。
智能网元
首先要解决的是硬件自身的智能化问题。
网络数据主要由设备网元产生,如果网络设备单纯只是生成日志以及告警,这些数据在大部分时间也很难恢复成网络的数字孪生,需要将传统设备网元升级成智能网元。
一方面,智能网元要提供数据。
数据是核心要素,这里的数据不求数量多,而是要用最少的数据来支撑精准决策。另
一方面,精准控制问题。类似无人驾驶新发布的车底盘,在下雨天能够实现精准控制,提前刹车。
这是因为系统能够检测轮胎与道路的摩擦力,当摩擦力变化时就能提前预判,快速做出动作,相比人的反应时间(超过500毫秒),智能系统仅需200毫秒。
网络数字地图
接着是网络自身的数字孪生问题,类似物理世界的谷歌地图,我们打造了业界首个网络数字地图,用于构建网络世界的数字孪生。
它可以实现数字世界的精准导航、仿真以及多维可视,并且为通讯大模型提供了精准的上下文信息。
智慧大脑
最后是作为智慧大脑的通信大模型,大模型一定会改变每个行业,让每个行业走向“自动驾驶”,但现阶段在工业领域的实际落地很难。
怎么解决这个难题?我认为有3个关键点:
首先,当前对系统影响最大的其实不是大模型,而是领域的专有模型。
比如专门处理安全策略的模型、专门负责路径调优的模型,这些模型大幅度提升执行任务的精度,决定了系统的能力上限;
其次,类o1的强推理能力,它决定了系统的泛化能力和决策的准确性;
最后是高质量的领域知识治理,我们的通信大模型融合了500亿通信语料以及1万多名网络运维专家的经验,从而成为通信领域的专家。
总结来说,我们需要底层的智能网元、系统的数字化建模、领域知识、API治理以及大模型的强推理能力等结合起来,才能让网络走向L4级“自动驾驶”。
谢谢!
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有