为什么说华为昇腾，是DeepSeek的“绝配”？_

忽如一夜春风来，千树万树梨花开。

可以说，在大模型商用市场，DeepSeek就像那一阵春风，引爆了市场的热情。但是，当企业陆续接入DeepSeek后，也发现了不少亟需要解决的问题。

例如，某企业刚把DeepSeek接入算力集群，就发现推理速度比预期慢得多，算力消耗却惊人。他们尝试扩展硬件，却发现推理吞吐量并未同步提升，反而因为计算任务分配不均，部分计算卡爆满，而另一部分却在“摸鱼”。更棘手的是，卡间通信成了新瓶颈，海量的模型权重和数据在多个计算节点间频繁交换，导致系统时延直线上升。

算力成本飞涨，推理效率却没有突破——问题究竟出在哪里？

这家企业面临的困境，实际上是大模型商业化落地都会遇到的共同难题。DeepSeek的MoE（混合专家）架构让AI更智能，但要真正跑起来，需要高效的计算负载均衡和极速的卡间通信，而传统算力架构难以支撑。

那该怎么办？总不能就因为卡在算力上，把好不容易激发的大模型商用热情，就这样浇灭了吧？

DeepSeek+华为昇腾的组合，也许就是解决这个问题的钥匙。为什么这么说？让我们深入讨论一下这个问题。

技术摸高 vs. 工程创新

理想和面包全都要？

目前，人工智能的发展正在沿着两条路径并行推进：一条是技术摸高，另一条是工程创新。

前者由OpenAI、Anthropic等头部企业主导，追求AGI、ASI，突破“智力”天花板。他们的策略是训练少量大专家模型，例如GPT-4.5，通过堆叠参数规模，让模型的泛化能力越来越强，最终希望构建一个能“无所不知、无所不能”的通用智能体。

但这条路的代价极为昂贵，每训练一次GPT-4.5级别的大模型，成本高达数亿美元，推理同样消耗巨大资源，这就导致在推理应用端定价偏高。企业要使用这样的大模型，不仅要为算力付出高昂代价，还要面对推理速度和成本之间的难以平衡。

另一条路则是工程创新，以DeepSeek为代表，他们的核心思路是让大模型计算更高效、推理更快、成本更低，真正推动产业落地。DeepSeek采用的MoE架构，就是一种对传统深度学习架构的优化，它让大模型从“一整块巨石”变成了“灵活的专家团队”，让AI推理更符合人脑的工作模式。

在传统的稠密模型（Dense Model）架构中，每一次推理，模型的所有参数都会被激活，所有计算层都会参与计算——这就像一个人面对问题时，无论简单还是复杂，都要调用整个大脑的全部区域，无差别地处理信息。显然，这是低效的。

但现实中，人脑并不是这样工作的。

例如，当我们阅读文章时，主要调动的是语言处理相关的脑区；当我们做数学计算时，更多调用的是逻辑推理的脑区；而在面对视觉信息时，则会激活视觉皮层……不同的大脑区域，在不同的任务中承担不同的计算职责，各司其职，高效协作，而不是让整个大脑无差别地运作。这种“分工协同”的神经机制，正是MoE架构的灵感来源。

MoE架构将大模型拆分为多个专家（Experts），每个专家都专注于处理特定类型的任务。当输入信息进入模型时，一个门控网络（Gating Network）会分析这个任务的特性，选择合适的几个专家进行计算，而其他专家则处于休眠状态，不会被激活。这样，每次推理都只调用一小部分参数，既减少了计算量，又提高了模型的推理速度。

这一架构的优势显而易见：

- 计算资源利用率更高：每次推理只激活一部分专家，而不是让整个模型运行，避免算力浪费。

- 推理吞吐量更大：多个专家并行计算，在相同算力条件下，推理速度远超传统稠密模型。

- 灵活扩展性更强：MoE架构允许企业按需增加或减少专家数量，适应不同规模、不同业务需求的AI应用。

需要指出的是，尽管MoE架构显著提升了大模型的计算效率，但要让它真正发挥作用，仍然面临一个关键难题：如何高效调度多个专家，使并行计算达到最大化？

这意味着，在MoE架构走向规模化落地的过程中，必须解决大规模专家并行（大EP）的计算挑战。

大EP很好

但有两头拦路虎

首先，我们需要搞清楚，大规模专家并行（大EP，Expert Parallelism）是什么。

在小规模MoE推理中，所有专家可能都运行在单个计算节点上，数据在同一张GPU或AI加速芯片上流转，计算效率高、通信开销小。

但当模型规模扩大、推理需求暴增，单机算力再强也不够用，必须把专家分散到多个计算卡甚至多个服务器上——这就是大规模专家并行（大EP）。

大EP的核心目标是：

- 让多个计算卡上的专家协同工作，避免单卡算力瓶颈，提高推理吞吐量。

- 减少不必要的计算冗余，让每张计算卡只负责自己该做的计算任务，不浪费资源。

- 降低推理时延，确保多计算卡协同推理时，延迟不会拖慢整体速度。

在理想状态下，大EP能让推理速度成倍提升，算力利用率大幅优化。但在现实应用中，大EP往往会遇到“分工不均、沟通不畅”两大难题——这就是负载均衡和卡间通信的挑战。

1. 负载均衡：如何让计算资源充分利用？

如果把MoE比作一个专家团队，那么负载均衡就是如何合理分配任务，让所有专家都能高效运作。

在MoE架构下，输入数据会先经过门控网络（Gating Network），决定该调用哪些专家进行推理。但在实际应用中，这个过程远比想象中复杂：

- 有些专家任务计算量大，处理速度慢；有些专家计算量小，处理速度快，导致部分计算卡过载，而部分计算卡处于低效状态。

- 数据分配不均，计算任务堆积，部分计算卡需要等待其他计算卡完成任务，整体推理速度被拖慢。

这就像是一个公司里，某些部门每天忙得焦头烂额，而另一些部门却在“摸鱼”——最终拖累的是整个公司的运转效率。

如果负载均衡没做好，系统会出现“木桶效应”：推理速度被最慢的计算卡决定，整体吞吐量下降，无法发挥大EP的并行计算优势。

2. 卡间通信：如何降低多节点数据传输的影响？

在单机模式下，模型参数、权重数据、计算结果可以在同一张计算卡上存取，数据流通快、延迟低。但在大EP架构下，多个计算卡要同时运行MoE专家，并且需要不断交换数据。这时候，通信成本迅速增加，并导致一系列后果：

- 权重数据传输慢：每张计算卡只存储部分模型权重，推理时需要频繁向其他计算卡请求缺失的参数，导致数据传输成为性能瓶颈。

- 计算等待时间长：如果一张计算卡上的专家需要依赖另一张计算卡上的计算结果，但网络通信速度跟不上，就会导致计算卡被迫等待数据，计算吞吐量下降。

- 卡间带宽限制：随着模型规模增大，计算卡之间的带宽压力激增，如果通信优化不到位，推理速度会被传输速率卡住，最终影响整体响应时间。

举个简单的例子：

想象一个远程团队协作项目，A部门需要B部门的数据才能继续工作，但B部门的网络太慢，每次发送文件都要等上好几分钟。结果A部门的任务被耽误，整个项目进度都受到影响。这种“数据传输慢导致计算效率低”的现象，正是大EP架构下常见的通信瓶颈。

如果卡间通信优化不到位，MoE架构在大EP环境下可能会出现“算力变多，反而吞吐下降”的尴尬局面——因为计算卡之间花了太多时间在“互相等待”而不是“高效计算”。

只有解决这两个问题，大EP才能真正成为大模型推理的最优解。

昇腾做了什么？

如果说MoE架构让大模型具备了“专家分工”的能力，那么要让这些专家真正高效协作，大EP就必须突破负载均衡和卡间通信的限制。而这，正是华为昇腾的优化重点。

那么，昇腾到底做了什么？

MoE负载均衡：动态调度，避免“有人累死，有人闲着”

在MoE架构下，专家任务并不是平均分配的。有些专家特别“抢手”，每次推理都会被高频调用，而另一些专家则几乎无所事事。这就导致部分计算卡的负载严重超标，计算任务堆积，而其他计算卡却处于“待机”状态，整个系统的吞吐量被最慢的计算卡拖累，形成典型的“木桶效应”。

昇腾的优化思路很直接——动态专家调度，通过自动寻优、自动配比、自动预测等方式，实现MoE负载均衡。这就像一个经验丰富的项目经理，实时监测每个团队成员的任务量，合理分配工作，确保所有人都能高效运转。

PD分离部署：拆分流水线，计算和存储各司其职

大模型推理的两个核心阶段Prefill（填充）和Decode（解码），对资源的需求完全不同。Prefill阶段需要大量算力，而Decode阶段则更依赖访存，需要快速调用和存取数据。

传统架构将这两种任务混合在一起，导致计算资源和存储资源争抢，影响整体效率。昇腾采用自适应PD分离部署，让Prefill任务由高算力硬件处理，而Decode任务交给高存储带宽的硬件，可根据业务负载情况动态调整负责Prefill和Decode的硬件比例，并通过高速KV数据传输打通两者，使整个流程更加流畅。这样的优化，使系统吞吐量提升了50%，推理过程更加稳定。

双流/多维混合并行：计算与数据传输同时进行，不再“等来等去”

传统的计算模式通常是“先计算，再传输”——计算任务完成后，数据才开始传输。但这样做的问题是，计算完成后，系统要等待数据到位，才能进行下一步运算，造成了时间浪费。

昇腾采用的双流/多维混合并行优化策略，改变了这个模式：计算和数据传输同时进行，一个数据流在计算时，另一个数据流已经在传输下一个任务的数据，避免了不必要的等待时间。通过双流/多维混合并行，平均性能提升30%。

MLAPO融合算子：减少计算“拆分成本”，提升执行效率

在深度学习计算中，很多计算任务会被拆分成多个小算子依次执行。但这样做的问题是，每个算子运行时都会带来额外的内存占用和数据交换，导致计算流程变得繁琐，整体执行效率下降。

昇腾采用MLAPO融合算子技术，将多个小算子合并成一个大算子，让计算一步到位，减少中间环节，避免不必要的计算开销。

这相当于，把本来需要分开做的多个步骤合并成一个完整的操作，就像是在厨房里，一次性备好所有食材，而不是每做一步菜就要去拿一个新的配料，节省时间，提高效率。

优化的结果是，计算耗时降低了70%，推理任务执行得更加迅速。

原生适配MTP，自研解码算法：推理更快更智能

在大模型推理中，传统的解码方式是自回归解码，即每次只生成一个Token，然后再根据这个Token预测下一个Token，整个推理过程被一步步锁死，速度较慢。

昇腾通过MTP（多Token预测）优化，使得模型不仅预测下一个Token，还能同时预测多个Token，提升模型推理效率最大1.8X。此外，昇腾还自研了一种DraftDecoding（启发式解码）算法，突破了传统的逐步解码方式，使多个Token能够同时生成并行校验，提高生成效率。DraftDecoding优化后，多用户并发能力提升了2倍，进一步降低了解码延迟。

需要指出的是，这些优化并不是独立进行的，而是像一套精密的齿轮系统，相互协作，形成一个完整的推理优化链条。就像一个指挥得当的交响乐团，每个乐手都能在正确的时间演奏正确的音符，整场演奏才能流畅、和谐。

最终的结果是：

- 单卡推理吞吐量提升3倍，推理速度更快，处理能力更强。

- 显存占用降低3倍，在相同算力条件下，支持更多并发任务，推理成本更低。

- 解码时延降低50%+，响应更快，最终用户体验更优。

如果说MoE架构的“大EP”是大模型落地的关键一步，那么昇腾的优化就是让这一步真正稳健迈出的“推力”。更重要的是，这不仅仅是一次推理效率的提升，更是国产AI生态迈向大规模商用的重要一步。

我们正站在一个新时代的门口

想象一下，20年前，我们还在使用功能机，发短信要精打细算字数，上网需要拨号，而如今，智能手机已成为我们生活的延伸，一切信息、服务触手可及。科技的每一次跃迁，都是从实验室走向现实，从概念变为生产力的过程。

而今天，我们正站在人工智能新时代的门口，见证着一场比移动互联网更深刻的变革。

如果把AI的发展比作一场接力赛，那么底层算力是起跑的力量，中间层模型是加速的关键，而上层应用则是最终冲刺的爆发点。在DeepSeek等国产大模型崛起的过程中，昇腾的算力突破，正在帮助AI产业形成完整的生态闭环。

一直以来，中国人工智能的核心短板之一就是算力瓶颈。

在大EP并行计算架构下，如果AI芯片存在性能瓶颈，则难以充分支持专家并行机制。例如，H20相对于H100性能有明显弱化，在高并发推理场景下可能会触及性能瓶颈。

为了解决这个问题，昇腾针对MoE架构进行了深度优化，在大规模推理任务中能够提供稳定的吞吐率，致力于为DeepSeek等国产大模型提供强有力的算力支撑。

在这个基础上，DeepSeek等国产MoE大模型的兴起，标志着中国AI技术路线的重大变革。传统的稠密模型（如GPT-3）要求高算力、高显存、长序列计算，而MoE架构通过“智能分配专家”机制，大幅降低了计算负担，使得单卡算力的要求不再那么苛刻。这不仅让DeepSeek的训练和推理更加经济高效，同时也使其能够适配更多国产算力方案，避免对国外硬件的依赖。

而最重要的是上层行业应用的爆发，随着国产算力和大模型的成熟，AI正在加速进入实际应用场景：金融行业，智能风控、量化交易、自动化客户服务，AI帮助银行实时监测风险、优化投资策略，提高运营效率；政务服务，政务智能问答、法律咨询、文档自动化处理，AI提升政务服务的智能化水平，优化资源配置；医疗健康，医学辅助诊断、药物研发、精准医疗分析，AI助力医生提高诊断效率，同时加速新药研发进程；制造与能源，智能制造、智能电网优化、设备预测维护，AI帮助企业提升生产效率，降低能源消耗。

可以看到，AI生态已经从“概念验证”阶段，进入了“规模化应用”阶段。从昇腾的硬件突破，到DeepSeek的算法优化，再到行业落地，一个全新的AI产业链正在形成。

预计未来2-3年内，DeepSeek等大模型将在金融、电力、政务、医疗等领域形成大规模商用，推动整个AI产业的升级。从根本上解决算力短缺问题，构建一个繁荣的AI技术生态，成为中国AI产业的核心任务。

历史的车轮滚滚向前，AI变革的浪潮已经汹涌而至。我们，已经在路上！

文：月满西楼 / 数据猿

责编：凝视深空 / 数据猿