AI 激战进入下半场，“推理”还卷得动吗？_

作者 | 鲁冬雪

不久前，一场前所未有的价格战在 AI 领域打响，其激烈程度堪比一场商业风暴。以阿里云、百度、腾讯为代表的头部厂商纷纷宣布大幅降价，引发了圈内巨大震动，其中阿里云的通义千问 GPT-4 级主力模型 Qwen-Long，其 API 输入价格从 0.02 元 / 千 tokens 直降至 0.0005 元 / 千 tokens，降幅高达 97%！

价格战愈演愈烈的原因有很多，但无论是什么原因，我们看到的都是，通用大模型崛起后的这场价格战，将云厂商的竞争推向高潮。从讲“服务故事”到血拼 tokens 价格，云厂商的价值在这场“降本”的变革中再次受到严峻审视。但聚焦技术本身，如果想要实现技术的可持续性发展，把握好技术革新与规模经济之间的关系才是真正的破局之法。

随着云计算技术的不断革新和规模效应的扩大，AI 服务成本显著降低，让更多企业和个人能够负担得起并采纳 AI 服务。同时，云计算飞轮的加速旋转也带来了极大丰富的计算资源，让 AI 模型能够更快、更准地完成训练和推理。

过去半年，美国湾区的推理已经迈入每秒生成千个 token 的大关，英伟达发布了号称“史上最强的 AI 芯片”，官方称推理性能提升了 30 倍；百度发布了文心大模型 4.0 的工具版，官方称该模型的推理性能提升了 105 倍，推理成本降到了原来的 1%；腾讯太极机器学习平台研发了 Angel-HCF 推理框架和 Angel-SNIP 压缩框架；META 公布了其定制 AI 芯片 MTIA 的最新版本，专门设计用于 AI 训练和推理工作，还在 AI 推理和规划方面进行了深入探索，逐渐接近通用人工智能（AGI）……显而易见，当大家“卷”完行业大模型的构建，比拼谁能拥有更多业务数据进行模型训练之后，“AI 推理”或成为新赛点。

根据 IDC 数据，随着人工智能进入大规模落地应用的关键时期，云端推理占算力的比例将逐步提升，“预计到 2026 年，推理占到 62.2%，训练占 37.8%。”这一预测进一步强调了 AI 推理在未来市场竞争中的核心地位。而高性能 AI 推理的背后是海量算力，这意味着 AI 基础设施将是未来市场竞争的基本盘。

据信通院发布的《新一代人工智能基础设施白皮书》数据显示，AI 领域的大模型参数量正在以惊人的速度增长，年均复合增长率达到 400%，算力需求的增长更是超出了摩尔定律的预测，达到了惊人的 15 万倍，对 AI 基础设施提出了前所未有的挑战。传统的 CPU、GPU 堆砌方案已经无法满足 AI 大模型的研发需求，加上企业对于 MaaS（大模型即服务）的需求日益增加，企业需要更高效、更灵活的基础设施来支撑 AI 应用的开发和部署。

可以说，新一代 AI 基础设施不仅要关注硬件设备的升级，更要注重软件、算法和数据服务的整合与优化，需要通过精细化的设计和重构，提升计算、存储、网络以及数据服务的性能，为 AI 应用提供更高效、更可靠的支持。

云服务"规模经济"：AI 基础设施成本大降的终极利刃

今年 3 月，开源平台 ClearML 发布的最新调研报告《2024 年 AI 基础设施规模现状：揭示未来前景、关键见解和商业基准》中显示，企业购买推理方案的关键因素是成本——为了解决 GPU 缺乏的问题，约 52% 的受访者在 2024 年积极寻找低本高效的 GPU 替代品用于推理，其中 20% 的受访者表示对低本高效的 GPU 替代品感兴趣，但还找不到替代品。这意味着，由于大多数企业尚未达到生成式 AI 的大规模生产，低本高效推理计算需求将呈现增长趋势。

在如此趋势下，越来越多的企业开始将 AI 推理迁移到按需付费的云端进行。

云计算服务市场是一个典型的“规模经济”。随着用户基数的扩大，云厂商可以通过大规模采购硬件、优化资源分配和提高运营效率来分摊固定成本，从而实现成本效益的最大化，这种成本优势让云厂商能够以更具竞争力的价格向市场提供服务。同时，规模经济效应还能加速技术创新和服务多样化，较大的用户基础为其带来了更多的数据和反馈，这有助于其更深入地理解客户需求，快速迭代产品，推出更符合市场需求的新服务和功能。

而在所有的云服务中，GPU 云服务器对 AI 基础设施建设的意义最为关键，它极大地提升了 AI 基础设施的处理能力。通过集成 GPU 云服务器，AI 基础设施能够更高效、更快速地完成训练和推理任务，从而加速 AI 项目的研发进展。这不仅能使企业抢占市场先机，还能在获得大量数据后进一步优化自身模型，积累更为丰富的数据库。

以阿里云 GPU 云服务器为例，其神龙架构支撑裸金属实例，实例内 GPU 实现全速 P2P 功能，集合通信能力提升 20%，在微调和多卡推理过程提升性能 6%。在支持包年包月和按量计费的两种低成本购买方式的情况下，阿里云 GPU 云服务器还提供了针对 AI 应用部署及优化的免费工具，实现面向训推场景的 GPU 性能优化，其在同等硬件条件下，LLM 大模型推理性能提升超 100%，LLM 大模型微调训练性能提升 50%。

去年一经上线就出圈爆火的 AI 应用“妙鸭相机”，随访问量的激增，对 GPU 服务器的算力需求激增至数千台规模。阿里云 GPU 云服务器为其提供了训推一体的解决方案，助其缩短 19% 的端到端微调时间，推理效率提升 100%。训练时间的减少，不仅意味着成本的降低，也意味着妙鸭 C 端客户更短的等待时间和更好的体验。

云服务创新：AI 时代 IT 基础架构变革的雷霆引擎

深度学习自 2012 年在 AI 领域确立其核心地位之后，尽管为应用带来了显著赋能，但很长一段时间里并未彻底改变应用研发范式。直至云服务的崛起，数字化基础设施的格局发生了根本性变化，计算、网络和存储的虚拟化使得算力成为基础服务，云原生架构的应用研发模式大幅提升了开发迭代效率。后来随着大模型技术的广泛应用，大模型以 AI 原生应用的形式深入多场景，并转化为一种通用的服务 MaaS，降低了 AI 技术的落地门槛。而作为基础设施的云服务，也在大模型发展的推动下，产生了云原生“AI 化”的转变，重塑了云计算产业格局。

这种转变不仅体现在 AI 技术作为服务（MaaS）的广泛应用上，更在基础设施层面推动了 GPU 云服务器的革命性转变。面对高速演进的 AI 技术对 GPU 资源提出的愈来愈高的要求，基于云原生“AI 化”的趋势，以确保资源能够按需分配、高效利用。当前，以容器为代表的云原生技术正在完成进一步创新，IT 系统需要更加模块化和灵活以适应 AI 应用的迭代和更新。

在 AI 应用研发场景中，当 GPU 云服务器被多个用户或应用共享时，特别是在资源需求不均或变化频繁的情况下，资源分配和调度可能不够灵活，导致 GPU 利用率低下。此时便可以使用类似于阿里云容器服务 Kubernetes 版 ACK 提供的云原生技术来解决问题。ACK 丰富的 GPU 集群弹性伸缩能力可以帮助企业灵活应对工作负载变化，根据资源使用情况，企业可以快速动态调整容器数量，数分钟内扩展至上千节点。容器所具备的环境隔离性保证了 AI 模型推理的稳定性和一致性，减少因环境差异导致的错误和冲突，可以加速模型的迭代和部署过程。

阿里云 ACK 提供“云原生 AI 套件”，企业可以充分利用云原生架构和技术，在 Kubernetes 容器平台上快速定制化构建 AI 生产系统，并为 AI/ML 应用和系统提供全栈优化。在实际 AI 推理场景下，基于标准 Kubernetes 提供的组件化能力，同时通过共享 GPU 方案，对比自建 GPU 集群算力利用率提升 100%。除此之外，通过数据加速 Fluid，AI 推理场景数据访问资源成本可以降低 10 倍左右。更值得一提的是，这套云原生 AI 套件自 6 月 6 日起全面免费，企业成本直接降为 0！

除了云原生架构的迭代创新，数据作为 AI 技术的“食粮”，其存储架构也在发生变革。随着数据量的激增，传统的存储解决方案已经无法满足 AI 对于高吞吐量和低延迟访问的需求。因此，可以在单个全局命名空间中无限扩展到数十 PB 甚至更多、可以为 AI 工作负载提供理想的存储解决方案——对象存储技术被广泛应用并持续迭代。

在目前的 AI 推理场景中，大家常会遇到的问题是，模型推理需要拉取加载模型文件，在调试过程中还需要不断切换新的模型文件进行尝试，而且随着模型文件的不断增大，推理服务器拉取模型文件所需时间越来越长。

面对这个挑战，许多企业将阿里云对象存储 OSS 作为解决方案。对比传统存储，OSS 的吞吐能力超过 10Tbps，从 OSS 下载 270GB 模型文件用时降低至 21s，通过低延时高吞吐的方式快速把模型文件传输到容器节点，减少 GPU 等待时间，可大大提升推理效率。此外，阿里云 OSS 加速器在 AI 推理环节支持 SD、Transformers 等多种推理框架，性能最高可 burst 至 40GB/s。

可以说，大模型的发展标志着 AI 技术进入了一个全新的阶段，它不仅仅是对以往 AI 技术迭代的延续，更是对底层 IT 基础设施和上层应用开发模式的一次深刻重构。云服务作为 IT 基础架构的核心部分，必须承担起引领创新变革的重任。

生态协同：云计算与 AI 深度融合的超级加速器

如今，大模型已经开始卷价格，对比云计算用了 16 年才开始卷价格，AI 市场厮杀的激烈程度不言而喻，甚至 AI 已经让卷到"很卷"的云计算变得“更卷”。

于此，云厂商不仅需要有强大的技术研发能力，更需要构建一个健康、活跃的生态，以实现资源的优化配置和价值的最大化，而创新就是云计算飞轮持续旋转的核心动力。AI 借助云计算的强大算力处理海量数据，实现智能化应用；云计算则为 AI 提供稳定的技术底座，促进技术再升级。两者形成的良好技术生态共同助力着全产业智能化发展，吸引着更多开发者、企业参与技术创新。

通过生态协同，云厂商能够与上下游企业共同产品和服务的持续创新；通过与合作伙伴的深度合作，实际业务场景下的需求正在驱动着云厂商技术迭代与创新。

这种繁荣的生态系统为阿里云带来了更多的创新服务和应用，从而铺建了其在行业里的领先地位。通过合作伙伴的支持，阿里云为客户提供更加丰富多样的云计算产品，其“先进、稳定、易用、高性价比”的优势也助力许多企业客户获得了业务成功。这个过程中，阿里云积累了丰富的市场经验，同时拥有了庞大的计算资源和海量数据，为 AI 大模型的研发提供了坚实的后盾，从而走在了大模型厂商前列。

阿里云在 AI 大模型研发与云计算领域的双重领先优势，让其在 AI 基础设施构建方面拥有了得天独厚的条件。不仅为 AI 基础设施的构建提供了坚实的基础，更在不断地将这一优势转化为实际的产品和服务。而且，阿里云非常清楚——除了技术具有前沿性外，如何将这些技术有效地应用到实际场景中以解决实际业务问题，同样至关重要。

不仅如此，今年 618 阿里云首度推出 5 亿算力补贴，并带来多项 200 余种热门云产品折上折活动，助力更多企业、创业者与开发者可以使用普惠算力，更好地上云创新。

登录阿里云官网，获取算力补贴

展望未来，云计算和 AI 技术的融合将进一步加速，共同推动数字化转型的浪潮。云计算的飞轮已经加速旋转，它带来的不仅仅是成本的降低和效率的提升，更是业务模式的创新和生态的构建，AI 技术也因此将得到更加广泛的应用和普及。我们期待看到更多的企业能够利用阿里云产品和服务，实现业务的快速增长和创新发展，共同推动 AI 技术的更快发展。

头条号入驻

InfoQ 有内容的技术社区媒体

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

AI 激战进入下半场，“推理”还卷得动吗？

头条号入驻

2024 年过半，AI 大模型在各行业的落地实践走到哪了？

TypeScript 5.5正式发布：更快、更智能、更强大

当《开心消消乐》遇上 AI 推理，我们找到了高质量关卡背后的原因！

财经自媒体联盟更多自媒体作者

热文排行榜