
忽如一夜春风来,千树万树梨花开。
可以说,在大模型商用市场,DeepSeek就像那一阵春风,引爆了市场的热情。但是,当企业陆续接入DeepSeek后,也发现了不少亟需要解决的问题。
例如,某企业刚把DeepSeek接入算力集群,就发现推理速度比预期慢得多,算力消耗却惊人。他们尝试扩展硬件,却发现推理吞吐量并未同步提升,反而因为计算任务分配不均,部分计算卡爆满,而另一部分却在“摸鱼”。更棘手的是,卡间通信成了新瓶颈,海量的模型权重和数据在多个计算节点间频繁交换,导致系统时延直线上升。
算力成本飞涨,推理效率却没有突破——问题究竟出在哪里?
这家企业面临的困境,实际上是大模型商业化落地都会遇到的共同难题。DeepSeek的MoE(混合专家)架构让AI更智能,但要真正跑起来,需要高效的计算负载均衡和极速的卡间通信,而传统算力架构难以支撑。
那该怎么办?总不能就因为卡在算力上,把好不容易激发的大模型商用热情,就这样浇灭了吧?
DeepSeek+华为昇腾的组合,也许就是解决这个问题的钥匙。为什么这么说?让我们深入讨论一下这个问题。
技术摸高 vs. 工程创新
理想和面包全都要?
目前,人工智能的发展正在沿着两条路径并行推进:一条是技术摸高,另一条是工程创新。
前者由OpenAI、Anthropic等头部企业主导,追求AGI、ASI,突破“智力”天花板。他们的策略是训练少量大专家模型,例如GPT-4.5,通过堆叠参数规模,让模型的泛化能力越来越强,最终希望构建一个能“无所不知、无所不能”的通用智能体。
但这条路的代价极为昂贵,每训练一次GPT-4.5级别的大模型,成本高达数亿美元,推理同样消耗巨大资源,这就导致在推理应用端定价偏高。企业要使用这样的大模型,不仅要为算力付出高昂代价,还要面对推理速度和成本之间的难以平衡。
另一条路则是工程创新,以DeepSeek为代表,他们的核心思路是让大模型计算更高效、推理更快、成本更低,真正推动产业落地。DeepSeek采用的MoE架构,就是一种对传统深度学习架构的优化,它让大模型从“一整块巨石”变成了“灵活的专家团队”,让AI推理更符合人脑的工作模式。
在传统的稠密模型(Dense Model)架构中,每一次推理,模型的所有参数都会被激活,所有计算层都会参与计算——这就像一个人面对问题时,无论简单还是复杂,都要调用整个大脑的全部区域,无差别地处理信息。显然,这是低效的。
但现实中,人脑并不是这样工作的。
例如,当我们阅读文章时,主要调动的是语言处理相关的脑区;当我们做数学计算时,更多调用的是逻辑推理的脑区;而在面对视觉信息时,则会激活视觉皮层……不同的大脑区域,在不同的任务中承担不同的计算职责,各司其职,高效协作,而不是让整个大脑无差别地运作。这种“分工协同”的神经机制,正是MoE架构的灵感来源。
MoE架构将大模型拆分为多个专家(Experts),每个专家都专注于处理特定类型的任务。当输入信息进入模型时,一个门控网络(Gating Network)会分析这个任务的特性,选择合适的几个专家进行计算,而其他专家则处于休眠状态,不会被激活。这样,每次推理都只调用一小部分参数,既减少了计算量,又提高了模型的推理速度。
这一架构的优势显而易见:
- 计算资源利用率更高:每次推理只激活一部分专家,而不是让整个模型运行,避免算力浪费。
- 推理吞吐量更大:多个专家并行计算,在相同算力条件下,推理速度远超传统稠密模型。
- 灵活扩展性更强:MoE架构允许企业按需增加或减少专家数量,适应不同规模、不同业务需求的AI应用。
需要指出的是,尽管MoE架构显著提升了大模型的计算效率,但要让它真正发挥作用,仍然面临一个关键难题:如何高效调度多个专家,使并行计算达到最大化?
这意味着,在MoE架构走向规模化落地的过程中,必须解决大规模专家并行(大EP)的计算挑战。
大EP很好
但有两头拦路虎
首先,我们需要搞清楚,大规模专家并行(大EP,Expert Parallelism)是什么。
在小规模MoE推理中,所有专家可能都运行在单个计算节点上,数据在同一张GPU或AI加速芯片上流转,计算效率高、通信开销小。
但当模型规模扩大、推理需求暴增,单机算力再强也不够用,必须把专家分散到多个计算卡甚至多个服务器上——这就是大规模专家并行(大EP)。
大EP的核心目标是:
- 让多个计算卡上的专家协同工作,避免单卡算力瓶颈,提高推理吞吐量。
- 减少不必要的计算冗余,让每张计算卡只负责自己该做的计算任务,不浪费资源。
- 降低推理时延,确保多计算卡协同推理时,延迟不会拖慢整体速度。
在理想状态下,大EP能让推理速度成倍提升,算力利用率大幅优化。但在现实应用中,大EP往往会遇到“分工不均、沟通不畅”两大难题——这就是负载均衡和卡间通信的挑战。
1. 负载均衡:如何让计算资源充分利用?
如果把MoE比作一个专家团队,那么负载均衡就是如何合理分配任务,让所有专家都能高效运作。
在MoE架构下,输入数据会先经过门控网络(Gating Network),决定该调用哪些专家进行推理。但在实际应用中,这个过程远比想象中复杂:
- 有些专家任务计算量大,处理速度慢;有些专家计算量小,处理速度快,导致部分计算卡过载,而部分计算卡处于低效状态。
- 数据分配不均,计算任务堆积,部分计算卡需要等待其他计算卡完成任务,整体推理速度被拖慢。
这就像是一个公司里,某些部门每天忙得焦头烂额,而另一些部门却在“摸鱼”——最终拖累的是整个公司的运转效率。
如果负载均衡没做好,系统会出现“木桶效应”:推理速度被最慢的计算卡决定,整体吞吐量下降,无法发挥大EP的并行计算优势。
2. 卡间通信:如何降低多节点数据传输的影响?
在单机模式下,模型参数、权重数据、计算结果可以在同一张计算卡上存取,数据流通快、延迟低。但在大EP架构下,多个计算卡要同时运行MoE专家,并且需要不断交换数据。这时候,通信成本迅速增加,并导致一系列后果:
- 权重数据传输慢:每张计算卡只存储部分模型权重,推理时需要频繁向其他计算卡请求缺失的参数,导致数据传输成为性能瓶颈。
- 计算等待时间长:如果一张计算卡上的专家需要依赖另一张计算卡上的计算结果,但网络通信速度跟不上,就会导致计算卡被迫等待数据,计算吞吐量下降。
- 卡间带宽限制:随着模型规模增大,计算卡之间的带宽压力激增,如果通信优化不到位,推理速度会被传输速率卡住,最终影响整体响应时间。
举个简单的例子:
想象一个远程团队协作项目,A部门需要B部门的数据才能继续工作,但B部门的网络太慢,每次发送文件都要等上好几分钟。结果A部门的任务被耽误,整个项目进度都受到影响。这种“数据传输慢导致计算效率低”的现象,正是大EP架构下常见的通信瓶颈。
如果卡间通信优化不到位,MoE架构在大EP环境下可能会出现“算力变多,反而吞吐下降”的尴尬局面——因为计算卡之间花了太多时间在“互相等待”而不是“高效计算”。
只有解决这两个问题,大EP才能真正成为大模型推理的最优解。
昇腾做了什么?
如果说MoE架构让大模型具备了“专家分工”的能力,那么要让这些专家真正高效协作,大EP就必须突破负载均衡和卡间通信的限制。而这,正是华为昇腾的优化重点。
那么,昇腾到底做了什么?
MoE负载均衡:动态调度,避免“有人累死,有人闲着”
在MoE架构下,专家任务并不是平均分配的。有些专家特别“抢手”,每次推理都会被高频调用,而另一些专家则几乎无所事事。这就导致部分计算卡的负载严重超标,计算任务堆积,而其他计算卡却处于“待机”状态,整个系统的吞吐量被最慢的计算卡拖累,形成典型的“木桶效应”。
昇腾的优化思路很直接——动态专家调度,通过自动寻优、自动配比、自动预测等方式,实现MoE负载均衡。这就像一个经验丰富的项目经理,实时监测每个团队成员的任务量,合理分配工作,确保所有人都能高效运转。
PD分离部署:拆分流水线,计算和存储各司其职
大模型推理的两个核心阶段Prefill(填充)和Decode(解码),对资源的需求完全不同。Prefill阶段需要大量算力,而Decode阶段则更依赖访存,需要快速调用和存取数据。
传统架构将这两种任务混合在一起,导致计算资源和存储资源争抢,影响整体效率。昇腾采用自适应PD分离部署,让Prefill任务由高算力硬件处理,而Decode任务交给高存储带宽的硬件,可根据业务负载情况动态调整负责Prefill和Decode的硬件比例,并通过高速KV数据传输打通两者,使整个流程更加流畅。这样的优化,使系统吞吐量提升了50%,推理过程更加稳定。
双流/多维混合并行:计算与数据传输同时进行,不再“等来等去”
传统的计算模式通常是“先计算,再传输”——计算任务完成后,数据才开始传输。但这样做的问题是,计算完成后,系统要等待数据到位,才能进行下一步运算,造成了时间浪费。
昇腾采用的双流/多维混合并行优化策略,改变了这个模式:计算和数据传输同时进行,一个数据流在计算时,另一个数据流已经在传输下一个任务的数据,避免了不必要的等待时间。通过双流/多维混合并行,平均性能提升30%。
MLAPO融合算子:减少计算“拆分成本”,提升执行效率
在深度学习计算中,很多计算任务会被拆分成多个小算子依次执行。但这样做的问题是,每个算子运行时都会带来额外的内存占用和数据交换,导致计算流程变得繁琐,整体执行效率下降。
昇腾采用MLAPO融合算子技术,将多个小算子合并成一个大算子,让计算一步到位,减少中间环节,避免不必要的计算开销。
这相当于,把本来需要分开做的多个步骤合并成一个完整的操作,就像是在厨房里,一次性备好所有食材,而不是每做一步菜就要去拿一个新的配料,节省时间,提高效率。
优化的结果是,计算耗时降低了70%,推理任务执行得更加迅速。
原生适配MTP,自研解码算法:推理更快更智能
在大模型推理中,传统的解码方式是自回归解码,即每次只生成一个Token,然后再根据这个Token预测下一个Token,整个推理过程被一步步锁死,速度较慢。
昇腾通过MTP(多Token预测)优化,使得模型不仅预测下一个Token,还能同时预测多个Token,提升模型推理效率最大1.8X。此外,昇腾还自研了一种DraftDecoding(启发式解码)算法,突破了传统的逐步解码方式,使多个Token能够同时生成并行校验,提高生成效率。DraftDecoding优化后,多用户并发能力提升了2倍,进一步降低了解码延迟。
需要指出的是,这些优化并不是独立进行的,而是像一套精密的齿轮系统,相互协作,形成一个完整的推理优化链条。就像一个指挥得当的交响乐团,每个乐手都能在正确的时间演奏正确的音符,整场演奏才能流畅、和谐。
最终的结果是:
- 单卡推理吞吐量提升3倍,推理速度更快,处理能力更强。
- 显存占用降低3倍,在相同算力条件下,支持更多并发任务,推理成本更低。
- 解码时延降低50%+,响应更快,最终用户体验更优。
如果说MoE架构的“大EP”是大模型落地的关键一步,那么昇腾的优化就是让这一步真正稳健迈出的“推力”。更重要的是,这不仅仅是一次推理效率的提升,更是国产AI生态迈向大规模商用的重要一步。
我们正站在一个新时代的门口
想象一下,20年前,我们还在使用功能机,发短信要精打细算字数,上网需要拨号,而如今,智能手机已成为我们生活的延伸,一切信息、服务触手可及。科技的每一次跃迁,都是从实验室走向现实,从概念变为生产力的过程。
而今天,我们正站在人工智能新时代的门口,见证着一场比移动互联网更深刻的变革。
如果把AI的发展比作一场接力赛,那么底层算力是起跑的力量,中间层模型是加速的关键,而上层应用则是最终冲刺的爆发点。在DeepSeek等国产大模型崛起的过程中,昇腾的算力突破,正在帮助AI产业形成完整的生态闭环。
一直以来,中国人工智能的核心短板之一就是算力瓶颈。
在大EP并行计算架构下,如果AI芯片存在性能瓶颈,则难以充分支持专家并行机制。例如,H20相对于H100性能有明显弱化,在高并发推理场景下可能会触及性能瓶颈。
为了解决这个问题,昇腾针对MoE架构进行了深度优化,在大规模推理任务中能够提供稳定的吞吐率,致力于为DeepSeek等国产大模型提供强有力的算力支撑。
在这个基础上,DeepSeek等国产MoE大模型的兴起,标志着中国AI技术路线的重大变革。传统的稠密模型(如GPT-3)要求高算力、高显存、长序列计算,而MoE架构通过“智能分配专家”机制,大幅降低了计算负担,使得单卡算力的要求不再那么苛刻。这不仅让DeepSeek的训练和推理更加经济高效,同时也使其能够适配更多国产算力方案,避免对国外硬件的依赖。
而最重要的是上层行业应用的爆发,随着国产算力和大模型的成熟,AI正在加速进入实际应用场景:金融行业,智能风控、量化交易、自动化客户服务,AI帮助银行实时监测风险、优化投资策略,提高运营效率;政务服务,政务智能问答、法律咨询、文档自动化处理,AI提升政务服务的智能化水平,优化资源配置;医疗健康,医学辅助诊断、药物研发、精准医疗分析,AI助力医生提高诊断效率,同时加速新药研发进程;制造与能源,智能制造、智能电网优化、设备预测维护,AI帮助企业提升生产效率,降低能源消耗。
可以看到,AI生态已经从“概念验证”阶段,进入了“规模化应用”阶段。从昇腾的硬件突破,到DeepSeek的算法优化,再到行业落地,一个全新的AI产业链正在形成。
预计未来2-3年内,DeepSeek等大模型将在金融、电力、政务、医疗等领域形成大规模商用,推动整个AI产业的升级。从根本上解决算力短缺问题,构建一个繁荣的AI技术生态,成为中国AI产业的核心任务。
历史的车轮滚滚向前,AI变革的浪潮已经汹涌而至。我们,已经在路上!
文:月满西楼 / 数据猿
责编:凝视深空 / 数据猿



4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有