行业观察 | 大模型竞争加剧，阿里云加码AI大基建_

大模型后续投入需要更大的算力支出，更低的模型价格，更高的技术门槛。这意味着，淘汰赛已经开始了

文 | 吴俊宇

编辑 | 谢丽容

大模型竞争正在加剧。2023年之前，1万枚AI（人工智能）芯片的数据中心是基础大模型的入场券。2024年以后，基础大模型有朝着10万枚AI芯片为基础的方向演进的趋势。

在这一背景下，微软、亚马逊、谷歌、阿里等拥有云计算业务的科技公司都在加大投入力度。

大模型是“吞金兽”。硬件层面，它需要巨额资本支出用于采购芯片和服务器，租赁土地建设数据中心。软件层面，它需要持续消耗算力进行模型训练、迭代。这带来的直接结果是，微软、亚马逊、谷歌、阿里这几家公司的资本支出增速在大幅增长。

微软、亚马逊、谷歌2024年上半年资本支出总和高达486亿美元，同比增长75%，达到了2019年以来的最高峰。阿里集团财报显示，阿里2024年上半年资本支出232.4亿元，同比增长123.2%。阿里2024年上半年资本支出增速也达到了2019年以来的高峰。

国际市场调研机构Gartner数据显示，阿里云目前是全球第四大云厂商，份额为7.9%，仅次于微软、亚马逊、谷歌。作为一家中国云厂商，它在大模型浪潮中的动作尤其值得关注。

阿里云为何要采取如此大力度进行AI投资？阿里云的AI基础设施投资还会持续多久？9月19日，阿里集团CEO（首席执行官）、阿里云智能董事长兼CEO吴泳铭在云栖大会上对此表达了几个重要判断。

其一，过去22个月，AI发展速度超过其他历史时期，目前依然处于大模型变革早期。大模型技术快速迭代，技术可用性大幅提升。模型推理成本指数级下降，已远超摩尔定律。推理成本是应用爆发的关键，阿里云会努力降低成本。全世界先进模型竞争的投入门槛，将达到数十亿、数百亿美元的级别。

其二，CPU（中央处理器）主导的计算体系，正在加速向GPU（图形处理器）主导的AI计算体系转移。新增算力市场，超过50%的新需求由AI产生，这一趋势还在扩大。所有行业都需要性能更强、规模更大、更适应AI需求的基础设施。过去一年，阿里云投资新建了大量的AI算力，仍不能满足客户需求。

吴泳铭表达了阿里继续加码AI算力投入的决心。他直言，新技术早期渗透率比较低，大部分人本能会产生怀疑，这很正常。但新技术会在怀疑中成长，让很多人在迟疑中错过。阿里云正在少有的高强度投入AI技术研发和基础设施建设。

阿里2025财年一季度（即2024年二季度）财报电话会中，阿里管理层曾披露，未来几个季度，预计将继续保持高增速的人工智能资本支出。

加码算力投入

发展大模型需要持续的AI算力投入。这些投入甚至不只是一次性支出，而是持续多年支出。因为大模型要迭代性能升级，每一代模型参数量、数据量都会更大，需要消耗更多的算力。

今年9月，多位云厂商基础设施技术人士对我们表示，万卡（1万枚AI芯片）只是大模型的入场券。目前下一代大模型的算力消耗正在朝10万卡方向演进，后续算力投入只会更高。能持续投入的厂商会逐步减少，最终只有少数几家头部厂商继续参与长跑。

以英伟达A100/A800系列AI芯片为例，单卡价格超过10万元。万卡集群仅AI芯片采购成本就超过10亿元，一座万卡智算中心基建成本超过30亿元。能承受如此高成本的企业寥寥无几。

巨额算力投入已经体现在科技公司的资本支出中。随着大模型竞争加剧，拥有云计算业务的主要科技公司（如微软、亚马逊、谷歌等）都在加码AI算力的投入。这使得它们的资本支出在高速增长。

正常情况下，科技公司的资本支出增速通常在20%左右。但2024年上半年，微软、亚马逊、谷歌的资本支出分别是330亿美元、303亿美元、252亿美元，分别增长了78%、32%、91%。微软2024财年四季度（即2024年二季度）财报电话会披露称，当季190亿美元资本支出几乎全部用于算力投入。微软、亚马逊、谷歌管理层均在2024年二季度财报电话会中表示，2024年全年资本支出将维持高速增长的趋势。

阿里的算力投入也在加速，增速不逊色于国际厂商。

我们统计了阿里集团2019年之后的资本支出情况。2019年一季度-2024年二季度，阿里每个季度的资本支出平均增速是15%。随着AI算力投入加快，阿里2024年上半年资本支出232.4亿元，同比增长123.2%。其中2024年一季度资本支出111.5亿元，同比增长高达220.4%。阿里近半年的资本支出增速，也达到了2019年以来的顶峰。

阿里高强度的AI算力投入正在取得初步成效。2024年二季度，阿里云营收265.5亿元，同比增长5.9%。阿里管理层在财报后的电话会议中披露，阿里云的公共云收入正在保持两位数增长，AI相关产品收入保持三位数增长。预计阿里云下半年的收入增速还将进一步提升。

在大模型竞赛中，算力资源的多寡很重要，算力效率的高低更重要。大模型在训练阶段、推理阶段都会大量消耗算力。前者主要影响模型厂商的模型生产成本，后者影响企业客户的使模型用成本。

周靖人在本次云栖大会上展示了阿里云AI基础设施的全貌。在他看来，云厂商需要通过计算、网络、存储等技术协同升级，提升计算效率。

提升算力效率，首先要提升大模型的训练效率。一个AI算力集群，一般由千卡、万卡组成。算力集群越大、芯片数量越多，故障率也会因此提升。大模型的训练是千卡、万卡的同步任务，一张卡出现故障就会影响整个集群的运作。

一位云厂商基础设施技术人士今年9月对我们表示，AI算力集群的中断时间和集群规模成正比。他提到一个公式——有效AI算力=单卡算力有效率×并行计算有效率×有效训练时间。其中每一项都是乘积关系，任何一项的表现有细微偏差，都会对整体算力利用率产生系统性影响。一般千卡集群的有效训练时长是99%，但万卡集群的有效训练时长会降低到90%，目前十万卡集群的有效训练时长甚至接近0%。

他直言，目前部分企业算力利用效率很低。一些企业在训练大模型时，算力有效利用率甚至不足50%。大量昂贵且稀有的AI算力被浪费了。

阿里云CTO（首席技术官）周靖人9月19日在云栖大会宣布，目前阿里云的万卡算力集群可以实现大于99%以上连续训练有效时长，模型算力利用率可提升20%以上，可支持单集群十万卡级别AI算力规模。

提升大模型训练效率之后，还需要持续提升大模型推理效率——这会直接影响企业使用大模型的成本。

过去两年大模型的发展遵循着Scaling Law（OpenAI在2020年提出的定律，直译为“缩放定律”）——模型性能主要与计算量、模型参数量和训练数据量三者大小相关。

一位云厂商大模型业务核心负责人提到，云厂商的核心原则是在Scaling Law的约束下提升数据质量、数量，适当降低模型参数；还可以采用MoE（Mixture of Experts，一种模型设计策略，通过混合多个专业模型，获得更好性能）架构提升模型性能、降低推理成本。落地到具体的业务策略，有两种方案。

其一，通过增加数据质量/数量、优化算法和架构的方式提升模型性能、降低模型尺寸。这可以有效减少算力消耗，提升主要应用效果，适应主流市场需求。

其二，采取更精准、细分的模型产品策略。不指望靠少数几款模型解决所有问题，而是让不同模型解决不同问题。比如，让性价比模型切经济市场，让高质量模型切高端市场。

大模型再降价

云计算的算力结构正在剧变。现在消耗更多推理算力，意味着会抢占更多增量市场。阿里云在CPU为主的算力阶段曾经保持领先，它需要在GPU为主的算力阶段确保优势。

国际市场调研机构IDC预测，2022年-2027年中国通用算力年复合增速16.6%，智能算力年复合增速33.9%。2022年-2027年，智能算力内部，推理算力占比将上升到72.6%，训练算力占比会下滑到27.4%。

今年5月，中国云厂商开始了大模型推理算力价格战。字节跳动旗下云服务火山引擎、阿里云、百度智能云、腾讯云先后把大模型推理算力价格下降了90%以上。

近期，多位云厂商技术人士对我们表示，5月以前国内大模型推理算力毛利率高于60%，和国际同行基本一致。5月各大厂接连降价后，推理算力毛利率下降幅度很大。

一位头部云厂商高管今年6月曾向我们表示，他在内部多轮推演和测算了降价逻辑，其中有两个矛盾点。

降价后存量收入会下降，增量收入会增长。理想情况是，增量收入能覆盖存量收入。

二是，如果同行降价更激进，要如何应对？最终结论是，现在的规模比利润更重要，可以为了预期中的长期增长放弃短期收入。

事实上，大模型推理价格下降对于处于发展早期的AI大模型产业是有意义的。

在短期内，推理算力能带来的收入并不多。一位中国云厂商技术人士解释，2024年各家模型调用收入不会超过10亿元，这在每年数百亿营收的大盘中规模有限。但未来1年-2年大模型调用次数有望有10倍以上的指数级增长。如果调用量足够大，长期收入增长将能弥补短期收入损失。

按照技术发展规律，这个过程中，AI应用会逐渐增长，算力成本会随着客户需求增长逐渐摊薄。大模型业务最终仍有机会实现正向利润，甚至很可能成为云厂商的新增长点。

今年9月之前，中国云厂商的大模型和AI创业公司OpenAI的同规格模型相比，价格普遍只有20%-50%。

以阿里的通义千问-Max、百度的ERNIE-4.0-8K、腾讯的hunyuan-pro三款旗舰模型为例，三者每百万Tokens的输出价格分别是120元、120元、100元。它们对标的OpenAI旗舰模型GPT-4-turbo每百万Tokens输出价格是210元（OpenAI官网标价是30美元，此处已按美元和人民币汇率1:7换算）。这三款国产大模型的价格仅为GPT-4-turbo的50%左右。

一年来，阿里通义千问大模型的API（应用程序编程接口，就像水电开关，调用时会消耗Token）调用输出价格下降了97%，入门模型百万Tokens（Token是大模型的文本单位，一个Token可以是单词、标点、数字、符号等）调用价格已降至0.5元。

阿里云另一个考量是，大模型还可以提高全行业的云计算渗透率——降价对产业和自身来说，会一个双赢的策略。阿里云方面披露的信息显示，第一轮降价后，大量企业用户调用通义大模型，阿里云百联平台的付费客户数比上一个季度增长了超过200%。

目前，阿里云把大模型价格打下去的态度是坚定的。9月19日云栖大会上，周靖人再次宣布了通义三款主力模型降价。阿里云公布的数据显示，通义千问-Max输入价格降低了50%，输出价格了降低50%。通义千问-Plus输入价格降低了85%，输出价格降低了90%。通义千问-Turbo输入价格降低了85%，输出价格了降低90%。

大模型推理价格降价的底线在哪里？一位数字化企业高管认为，这可能要等到“杀手级”AI应用真正爆发。

周靖人的观点是，目前大模型应用创新还处于早期。如果模型使用价格相对昂贵，会导致AI应用无法大规模落地。阿里云每一次模型降价的决策都是经过严肃研判的，是经过市场反馈后的结果。阿里云会采取持续技术创新的方式降低算力成本，把红利让利给企业客户。

阿里云副总裁张启认为，大模型的推理价格下降不应该用“价格战”的竞争思维去理解。模型降价，这就像电信运营商的提速降费。今天的手机流量资费和20年前相比，完全无法类比。电信运营商的提速降费催生了移动互联网的创新。阿里云在考虑更长远的问题——推动AI应用创新。大模型推理价格下降也会带来AI应用爆发。

AI应用的爆发在硅谷已经可以初见端倪。一位中国云厂商高管今年5月向我们提到，年初他在硅谷发现，美国AI应用创业呈现了2012年-2014年中国移动互联网初期的趋势。“AI应用创业小团队，很快取得营收和融资。中国市场未来可能会呈现这种趋势。但前提是，大模型推理价格足够低，试错门槛要足够低。”

淘汰赛开始，AI生态在萌芽

更大的算力支出，更低的模型价格，更高的技术门槛。这意味着大模型的淘汰赛已经开始了——它的另一面是，AI应用生态也在萌芽。

大模型需要持续投资，要有万卡甚至十万卡的能力，还需要商业回报。在一位中国云厂商战略人士看来，很多企业不具备这样的能力。未来中国市场只会有三五家基础模型厂商。市场会逐渐出清，剩下真正有竞争力的企业。

吴泳铭在云栖大会提到，全世界先进模型竞争的投入门槛，将达到数十亿、数百亿美元的级别。一位中国云厂商技术人士今年9月对我们表示，中国云厂商需要保持每年百亿元级别的算力资本支出，按照目前的推理算力用量，几家参与价格战的头部云厂商2024年要为大模型推理算力消耗补贴超过十亿元。

多位行业人士对我们表达了同一个观点，这轮淘汰赛会持续一两年，只有3家-5家基础模型企业能继续活下去。

一位科技公司战略规划人士的观点是，阿里云在这场淘汰赛中相对从容。一是，阿里云已经实现了盈利（非美国通用会计准则标准下的盈利，剔除服务器摊销、员工股权激励等非现金因素）。阿里云主要来自公共云四大件（计算、存储、网络、数据库），低价模型会促进客户业务数据消耗，进而带动上述基础云产品的销售。

长远来看，大模型发展的理想情况是，最终依靠高性能的模型和合理的价格建立健康持久的商业闭环。一位云厂商大模型业务核心负责人认为，这个逻辑必须等淘汰赛结束之后才可能成立。至少在未来1年-2年内，很多大模型厂商的首要目标是，活过这一轮价格战。

尽管先进模型的竞争愈演愈烈，但一个更乐观的判断是，持续不断降低的算力成本和模型价格，会在潜移默化中让大模型应用生态逐渐爆发。随着模型价格持续降低，AI应用生态会逐渐繁荣。最终剩下的大模型厂商将成为最终的受益者。

周靖人对我们表示，阿里云推动大模型生态繁荣的目标没有变。未来会坚持把技术红利释放给企业用户以及开发者，推动整个AI行业发展。

头条号入驻

Double新鲜萃国内外时事热点聚焦新闻新视角

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

行业观察 | 大模型竞争加剧，阿里云加码AI大基建

头条号入驻

字节一叶知秋

长沙银行，渐入瓶颈

为什么经常庆功，就能成功？

财经自媒体联盟更多自媒体作者

热文排行榜