CPU 如何加速多端 AI 应用落地,在这场 AI 顶级盛会上有了答案

CPU 如何加速多端 AI 应用落地,在这场 AI 顶级盛会上有了答案
2024年07月03日 16:30 CSDN

编辑 | 宋慧

出品 | CSDN(ID:CSDNnews)

以大模型、生成式 AI 为代表的人工智能已经进入爆发式发展阶段,正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到 AI 相关技术与应用研发中,希望能够在这个领域取得突破。各大科技公司也在不断加大在 AI 大模型领域的投入,希望能够在此领域中占据一席之地。

这就回到了绕不开的“算力”话题。面对 GPU“缺卡”的局面,国产大模型玩家们如何破局?一切还要回归到用户真正的需求:

  • AI 应用场景多种多样,其中有大量离线的 LLM 应用需求,如生成文章总结、摘要、数据分析等。与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用 CPU 来进行推理。

  • 此外,对于 30B 以上规模的 LLM,所需的高规格的 GPU 成本较高、供货紧缺,对于离线场景的用户来说不是一个理想的选择。而针对该场景,CPU 不仅可以很好地支持 30B 及以下规模的模型,而且在性价比上更具优势。

在 6 月 28 日举办的国内 AI 技术开发顶级盛会 WAVE SUMMIT 2024 上,百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新 AI 技术与产品方案为例,展示了大模型时代,AI 算力成本高昂,以稳定性和成熟度更高的 CPU,满足多终端 AI 应用对算力严苛需求的最新实践。

七年合作渊源

共同挖掘 CPU 的 AI 算力潜能

作为 WAVE SUMMIT 战略合作伙伴的英特尔,旗下的 OpenVINO™工具套件与百度飞桨 PaddlePaddle 深度学习框架已有七年的合作渊源。现在,英特尔正在和百度一起,充分挖掘 CPU 计算资源的潜能,以 CPU 去满足模型在多终端的推理加速

作为国内首个一站式的大模型开发和推理应用平台,百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的 LLM 支持,能够帮助用户构建各种智能应用。自去年 3 月发布以来,千帆大模型平台已有超 12 万客户使用,累计调优模型 2 万个,孵化应用 4.2 万个。这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。

百度智能云为代表的云平台中本身就部署着大量基于 CPU 的云服务器,释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。

为了提升基于 CPU 的 LLM 推理性能,百度智能云利用英特尔® 至强® 可扩展处理器搭载的英特尔® AMX(高级矩阵扩展)等高级硬件能力,助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。

百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择

以 Llama-2-7B 模型为例,相比在第三代至强® 可扩展处理器的输出 Token 吞吐,第四代和第五代至强® 分别完成了相对前代 60%和 45%的接力提升。在低延迟的场景,同等并发下,第四代和第五代至强® 可扩展处理器的首 Token 时延对比前代,也分别都达到 50% 左右的下降。

Llama-2-7B 模型输出 Token 吞吐逐代提升

Llama-2-7B 模型首 Token 时延逐步优化降低

加速多端、多领域 AI 落地

英特尔的核心技术有哪些?

xFT、AMX,让千帆大模型平台用 CPU 实现 AI 推理

AI 技术和应用爆发,背后需要巨量的算力资源支撑。以大语言模型 LLM 为例,LLM 推理过程中涉及大量的、多维度的矩阵乘法计算,在不同参数量级模型、不同并发、不同数据分布等场景下,模型推理的性能瓶颈可能在于计算或者带宽,为了保证模型生成的吞吐和时延,对硬件平台的算力和访存带宽都会提出较高的要求。

新一代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。它还可支持 HBM(High Bandwidth Memory)内存,和 DDR5 相比,具有更多的访存通道和更长的读取位宽,理论带宽可达 DDR5 的 4 倍。

在算力方面,第四代和第五代至强® 可扩展处理器中还内置了英特尔® AMX 加速器,可优化深度学习训练和推理工作负载。与内置英特尔® AVX-512_VNNI 的第三代至强® 相比,第四代至强® 将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次,是 AVX512_VNNI 同样数据类型的 8 倍。

除此之外,会上英特尔展示的技术中,最亮眼的当属 xFT (xFasterTransformer)了。

xFT 基于英特尔® AMX 等加速指令深度优化,专为大语言模型在至强® CPU 平台推理部署设计,支持多种低精度数据类型,提供灵活 API 接口,非常方便开发者使用集成。

百度智能云千帆大模型平台已经采⽤基于 AMX 加速器和 HBM 硬件特性极致优化的 xFT 作为后端推理引擎,用户在千帆大模型平台上可以选择使用 CPU 作为计算资源,并进一步为基于 CPU 的 LLM 应用实现推理加速。方案针对超长上下文和长输出进行了优化,已经支持 Llama-2-7B/13B,ChatGLM2-6B 等主流模型部署在线服务。

千帆大模型平台可选择 CPU 计算资源进行推理服务

OpenVINO™ 推出 LLM 大模型专属 API,加速本地 AI 推理

另外,已经与百度飞桨实现深度集成的英特尔 AI 开发工具套件 OpenVINO™,也在最新发布的 24.2 版本中,引入了特定于 LLM 的 API,用户可以加载模型,向其传递上下文,并通过几行代码返回响应。具体来说,更简易的更新 API 隐藏了内部生成循环的复杂性,并显著减少了需要在应用程序中编写的代码量。

在内部设计中,英特尔充分调动了不同硬件的不同特性,同时使用 GPU 和 CPU 的配合来为 LLM 进行推理加速。同时,OpenVINO™ 的引入可在训练时充分考虑到推理,进一步提升性能,同时保持问答和翻译的准确性。

行业落地实践:

AMX 加速医疗科研等专业领域 AI 应用

会上,英特尔还分享了 AI 技术在生物医药、医疗等专业领域,如大分子计算、生物影像、单细胞组学分析、医疗大模型等等 AI 场景的实践经验。

以医疗大模型的行业应用为例,领先的医疗人工智能解决方案提供商惠每科技,就基于其临床决策支持系统 (Clinical Decision Support System,CDSS) 3.0,为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。

在核心算力选择上,惠每科技选中了英特尔® 至强® CPU Max 系列处理器,在硬件基座之外,英特尔还借助 IPEX-LLM 大模型库实现推理加速的低精度量化方案,以及基于 OpenVINO™ 工具套件开展的非量化优化方案,双管齐下,能让医疗大模型在至强® 平台上的推理效率得到显著提升。

非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销,提供三个方面的优化,包括:利用零拷贝 (Zero-Copy) 视图来传递预分配的 KV 所需的内存副本空间,使用 OpenVINO™ opset来重构 LLM 的模型架构,以及引入 OpenVINO™ 工具套件在 HuggingFace 上的 Optimum 接口。

优化后,大模型方案能在英特尔® 架构 CPU 平台上获得巨大性能提升,并获得与 GPU 平台相近的性能表现。例如方案在 2K 输入时,经非量化方案优化后,首词延时下降至 2.1 秒,优化幅度达 1.92 倍。平均延时下降至 47.96 毫秒每 Token,优化幅度达 3.81 倍。

英特尔非量化方案优化首词延时与平均延时性能均实现提升

结语

AI 正在加速赋能千行百业,重塑人们的生产和生活方式。如何高效地部署 AI 技术与应用的同时,获得更优性价比,是行业开发者目前重点关注的话题。

成熟、稳定,对于开发者也更加熟悉的 CPU 结合当下 AI 场景的真实需求,对软硬件协同调优,为 AI 时代算力话题提供了新的设计思路和丰富的实践案例。未来,CPU 将在 AI 浪潮中发挥怎样的作用,CSDN 将持续关注报道。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部