CPU 如何加速多端 AI 应用落地，在这场 AI 顶级盛会上有了答案_

编辑 | 宋慧

出品 | CSDN（ID：CSDNnews）

以大模型、生成式 AI 为代表的人工智能已经进入爆发式发展阶段，正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到 AI 相关技术与应用研发中，希望能够在这个领域取得突破。各大科技公司也在不断加大在 AI 大模型领域的投入，希望能够在此领域中占据一席之地。

这就回到了绕不开的“算力”话题。面对 GPU“缺卡”的局面，国产大模型玩家们如何破局？一切还要回归到用户真正的需求：

AI 应用场景多种多样，其中有大量离线的 LLM 应用需求，如生成文章总结、摘要、数据分析等。与在线场景相比，离线场景通常会利用平台的闲时算力资源，对于推理的时延要求不高，而对于推理的成本较为敏感，因此用户更加倾向采用 CPU 来进行推理。
此外，对于 30B 以上规模的 LLM，所需的高规格的 GPU 成本较高、供货紧缺，对于离线场景的用户来说不是一个理想的选择。而针对该场景，CPU 不仅可以很好地支持 30B 及以下规模的模型，而且在性价比上更具优势。

在 6 月 28 日举办的国内 AI 技术开发顶级盛会 WAVE SUMMIT 2024 上，百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新 AI 技术与产品方案为例，展示了大模型时代，AI 算力成本高昂，以稳定性和成熟度更高的 CPU，满足多终端 AI 应用对算力严苛需求的最新实践。

七年合作渊源

共同挖掘 CPU 的 AI 算力潜能

作为 WAVE SUMMIT 战略合作伙伴的英特尔，旗下的 OpenVINO™工具套件与百度飞桨 PaddlePaddle 深度学习框架已有七年的合作渊源。现在，英特尔正在和百度一起，充分挖掘 CPU 计算资源的潜能，以 CPU 去满足模型在多终端的推理加速。

作为国内首个一站式的大模型开发和推理应用平台，百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法，尤其是丰富的 LLM 支持，能够帮助用户构建各种智能应用。自去年 3 月发布以来，千帆大模型平台已有超 12 万客户使用，累计调优模型 2 万个，孵化应用 4.2 万个。这些应用覆盖教育、金融、办公、医疗等众多场景，为行业数字化转型提供了有力支撑。

百度智能云为代表的云平台中本身就部署着大量基于 CPU 的云服务器，释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率，满足用户快速部署 LLM 模型的需求。

为了提升基于 CPU 的 LLM 推理性能，百度智能云利用英特尔® 至强® 可扩展处理器搭载的英特尔® AMX（高级矩阵扩展）等高级硬件能力，助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。

百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择

以 Llama-2-7B 模型为例，相比在第三代至强® 可扩展处理器的输出 Token 吞吐，第四代和第五代至强® 分别完成了相对前代 60%和 45%的接力提升。在低延迟的场景，同等并发下，第四代和第五代至强® 可扩展处理器的首 Token 时延对比前代，也分别都达到 50% 左右的下降。

Llama-2-7B 模型输出 Token 吞吐逐代提升

Llama-2-7B 模型首 Token 时延逐步优化降低

加速多端、多领域 AI 落地

英特尔的核心技术有哪些？

xFT、AMX，让千帆大模型平台用 CPU 实现 AI 推理

AI 技术和应用爆发，背后需要巨量的算力资源支撑。以大语言模型 LLM 为例，LLM 推理过程中涉及大量的、多维度的矩阵乘法计算，在不同参数量级模型、不同并发、不同数据分布等场景下，模型推理的性能瓶颈可能在于计算或者带宽，为了保证模型生成的吞吐和时延，对硬件平台的算力和访存带宽都会提出较高的要求。

新一代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令，有效提升了内存带宽与速度，并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。它还可支持 HBM（High Bandwidth Memory）内存，和 DDR5 相比，具有更多的访存通道和更长的读取位宽，理论带宽可达 DDR5 的 4 倍。

在算力方面，第四代和第五代至强® 可扩展处理器中还内置了英特尔® AMX 加速器，可优化深度学习训练和推理工作负载。与内置英特尔® AVX-512_VNNI 的第三代至强® 相比，第四代至强® 将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次，是 AVX512_VNNI 同样数据类型的 8 倍。

除此之外，会上英特尔展示的技术中，最亮眼的当属 xFT （xFasterTransformer）了。

xFT 基于英特尔® AMX 等加速指令深度优化，专为大语言模型在至强® CPU 平台推理部署设计，支持多种低精度数据类型，提供灵活 API 接口，非常方便开发者使用集成。

百度智能云千帆大模型平台已经采⽤基于 AMX 加速器和 HBM 硬件特性极致优化的 xFT 作为后端推理引擎，用户在千帆大模型平台上可以选择使用 CPU 作为计算资源，并进一步为基于 CPU 的 LLM 应用实现推理加速。方案针对超长上下文和长输出进行了优化，已经支持 Llama-2-7B/13B，ChatGLM2-6B 等主流模型部署在线服务。

千帆大模型平台可选择 CPU 计算资源进行推理服务

OpenVINO™ 推出 LLM 大模型专属 API，加速本地 AI 推理

另外，已经与百度飞桨实现深度集成的英特尔 AI 开发工具套件 OpenVINO™，也在最新发布的 24.2 版本中，引入了特定于 LLM 的 API，用户可以加载模型，向其传递上下文，并通过几行代码返回响应。具体来说，更简易的更新 API 隐藏了内部生成循环的复杂性，并显著减少了需要在应用程序中编写的代码量。

在内部设计中，英特尔充分调动了不同硬件的不同特性，同时使用 GPU 和 CPU 的配合来为 LLM 进行推理加速。同时，OpenVINO™ 的引入可在训练时充分考虑到推理，进一步提升性能，同时保持问答和翻译的准确性。

行业落地实践：

AMX 加速医疗科研等专业领域 AI 应用

会上，英特尔还分享了 AI 技术在生物医药、医疗等专业领域，如大分子计算、生物影像、单细胞组学分析、医疗大模型等等 AI 场景的实践经验。

以医疗大模型的行业应用为例，领先的医疗人工智能解决方案提供商惠每科技，就基于其临床决策支持系统 (Clinical Decision Support System，CDSS) 3.0，为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。

在核心算力选择上，惠每科技选中了英特尔® 至强® CPU Max 系列处理器，在硬件基座之外，英特尔还借助 IPEX-LLM 大模型库实现推理加速的低精度量化方案，以及基于 OpenVINO™ 工具套件开展的非量化优化方案，双管齐下，能让医疗大模型在至强® 平台上的推理效率得到显著提升。

非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销，提供三个方面的优化，包括：利用零拷贝 (Zero-Copy) 视图来传递预分配的 KV 所需的内存副本空间，使用 OpenVINO™ opset来重构 LLM 的模型架构，以及引入 OpenVINO™ 工具套件在 HuggingFace 上的 Optimum 接口。

优化后，大模型方案能在英特尔® 架构 CPU 平台上获得巨大性能提升，并获得与 GPU 平台相近的性能表现。例如方案在 2K 输入时，经非量化方案优化后，首词延时下降至 2.1 秒，优化幅度达 1.92 倍。平均延时下降至 47.96 毫秒每 Token，优化幅度达 3.81 倍。