编辑 | 宋慧
出品 | CSDN(ID:CSDNnews)
以大模型、生成式 AI 为代表的人工智能已经进入爆发式发展阶段,正在引发计算、开发、交互范式的全面变革。越来越多的开发者投入到 AI 相关技术与应用研发中,希望能够在这个领域取得突破。各大科技公司也在不断加大在 AI 大模型领域的投入,希望能够在此领域中占据一席之地。
这就回到了绕不开的“算力”话题。面对 GPU“缺卡”的局面,国产大模型玩家们如何破局?一切还要回归到用户真正的需求:
AI 应用场景多种多样,其中有大量离线的 LLM 应用需求,如生成文章总结、摘要、数据分析等。与在线场景相比,离线场景通常会利用平台的闲时算力资源,对于推理的时延要求不高,而对于推理的成本较为敏感,因此用户更加倾向采用 CPU 来进行推理。
此外,对于 30B 以上规模的 LLM,所需的高规格的 GPU 成本较高、供货紧缺,对于离线场景的用户来说不是一个理想的选择。而针对该场景,CPU 不仅可以很好地支持 30B 及以下规模的模型,而且在性价比上更具优势。
在 6 月 28 日举办的国内 AI 技术开发顶级盛会 WAVE SUMMIT 2024 上,百度与英特尔以百度智能云千帆大模型平台、飞桨深度学习平台的最新 AI 技术与产品方案为例,展示了大模型时代,AI 算力成本高昂,以稳定性和成熟度更高的 CPU,满足多终端 AI 应用对算力严苛需求的最新实践。
![](http://k.sinaimg.cn/n/sinakd20240703s/216/w120h96/20240703/b36d-e57dfdc83f5866c0b743948ca84d9363.png/w700d1q75cms.jpg)
七年合作渊源
共同挖掘 CPU 的 AI 算力潜能
作为 WAVE SUMMIT 战略合作伙伴的英特尔,旗下的 OpenVINO™工具套件与百度飞桨 PaddlePaddle 深度学习框架已有七年的合作渊源。现在,英特尔正在和百度一起,充分挖掘 CPU 计算资源的潜能,以 CPU 去满足模型在多终端的推理加速。
作为国内首个一站式的大模型开发和推理应用平台,百度智能云千帆大模型平台可以提供先进的生成式AI生产及应用全流程开发工具链。它为开发者提供了丰富的人工智能模型和算法,尤其是丰富的 LLM 支持,能够帮助用户构建各种智能应用。自去年 3 月发布以来,千帆大模型平台已有超 12 万客户使用,累计调优模型 2 万个,孵化应用 4.2 万个。这些应用覆盖教育、金融、办公、医疗等众多场景,为行业数字化转型提供了有力支撑。
百度智能云为代表的云平台中本身就部署着大量基于 CPU 的云服务器,释放这些 CPU 的 AI 算力潜力将有助于提升资源利用率,满足用户快速部署 LLM 模型的需求。
为了提升基于 CPU 的 LLM 推理性能,百度智能云利用英特尔® 至强® 可扩展处理器搭载的英特尔® AMX(高级矩阵扩展)等高级硬件能力,助力千帆大模型平台在百度智能云上的 CPU 端的推理加速。
![](http://k.sinaimg.cn/n/sinakd20240703s/69/w1080h589/20240703/4b57-08b313d508c0f0277b40148f433dbb3d.png/w700d1q75cms.jpg)
百度智能云千帆大模型平台可支持广泛的英特尔® CPU 选择
以 Llama-2-7B 模型为例,相比在第三代至强® 可扩展处理器的输出 Token 吞吐,第四代和第五代至强® 分别完成了相对前代 60%和 45%的接力提升。在低延迟的场景,同等并发下,第四代和第五代至强® 可扩展处理器的首 Token 时延对比前代,也分别都达到 50% 左右的下降。
![](http://k.sinaimg.cn/n/sinakd20240703s/88/w1080h608/20240703/9cbb-3c05873fdb4972b9a35f5ee3a2ebb7c9.png/w700d1q75cms.jpg)
Llama-2-7B 模型输出 Token 吞吐逐代提升
![](http://k.sinaimg.cn/n/sinakd20240703s/87/w1080h607/20240703/58b9-4b8dac9de45c5416d9d4f73f168b6bbf.png/w700d1q75cms.jpg)
Llama-2-7B 模型首 Token 时延逐步优化降低
![](http://k.sinaimg.cn/n/sinakd20240703s/216/w120h96/20240703/9b87-a4849b52d84089774198cb87362d5199.png/w700d1q75cms.jpg)
加速多端、多领域 AI 落地
英特尔的核心技术有哪些?
xFT、AMX,让千帆大模型平台用 CPU 实现 AI 推理
AI 技术和应用爆发,背后需要巨量的算力资源支撑。以大语言模型 LLM 为例,LLM 推理过程中涉及大量的、多维度的矩阵乘法计算,在不同参数量级模型、不同并发、不同数据分布等场景下,模型推理的性能瓶颈可能在于计算或者带宽,为了保证模型生成的吞吐和时延,对硬件平台的算力和访存带宽都会提出较高的要求。
新一代英特尔® 至强® 可扩展处理器通过创新架构增加了每个时钟周期的指令,有效提升了内存带宽与速度,并通过 PCIe 5.0 实现了更高的 PCIe 带宽提升。它还可支持 HBM(High Bandwidth Memory)内存,和 DDR5 相比,具有更多的访存通道和更长的读取位宽,理论带宽可达 DDR5 的 4 倍。
在算力方面,第四代和第五代至强® 可扩展处理器中还内置了英特尔® AMX 加速器,可优化深度学习训练和推理工作负载。与内置英特尔® AVX-512_VNNI 的第三代至强® 相比,第四代至强® 将单位计算周期内执行 INT8 运算的次数从 256 次提高至 2048 次,是 AVX512_VNNI 同样数据类型的 8 倍。
除此之外,会上英特尔展示的技术中,最亮眼的当属 xFT (xFasterTransformer)了。
xFT 基于英特尔® AMX 等加速指令深度优化,专为大语言模型在至强® CPU 平台推理部署设计,支持多种低精度数据类型,提供灵活 API 接口,非常方便开发者使用集成。
百度智能云千帆大模型平台已经采⽤基于 AMX 加速器和 HBM 硬件特性极致优化的 xFT 作为后端推理引擎,用户在千帆大模型平台上可以选择使用 CPU 作为计算资源,并进一步为基于 CPU 的 LLM 应用实现推理加速。方案针对超长上下文和长输出进行了优化,已经支持 Llama-2-7B/13B,ChatGLM2-6B 等主流模型部署在线服务。
![](http://k.sinaimg.cn/n/sinakd20240703s/88/w1080h608/20240703/337e-c739e3978284333a3e122c6a6ef6a863.png/w700d1q75cms.jpg)
千帆大模型平台可选择 CPU 计算资源进行推理服务
OpenVINO™ 推出 LLM 大模型专属 API,加速本地 AI 推理
另外,已经与百度飞桨实现深度集成的英特尔 AI 开发工具套件 OpenVINO™,也在最新发布的 24.2 版本中,引入了特定于 LLM 的 API,用户可以加载模型,向其传递上下文,并通过几行代码返回响应。具体来说,更简易的更新 API 隐藏了内部生成循环的复杂性,并显著减少了需要在应用程序中编写的代码量。
在内部设计中,英特尔充分调动了不同硬件的不同特性,同时使用 GPU 和 CPU 的配合来为 LLM 进行推理加速。同时,OpenVINO™ 的引入可在训练时充分考虑到推理,进一步提升性能,同时保持问答和翻译的准确性。
行业落地实践:
AMX 加速医疗科研等专业领域 AI 应用
会上,英特尔还分享了 AI 技术在生物医药、医疗等专业领域,如大分子计算、生物影像、单细胞组学分析、医疗大模型等等 AI 场景的实践经验。
以医疗大模型的行业应用为例,领先的医疗人工智能解决方案提供商惠每科技,就基于其临床决策支持系统 (Clinical Decision Support System,CDSS) 3.0,为用户打造了更专业、更实用和更可靠的医疗大模型私有化部署方案。
在核心算力选择上,惠每科技选中了英特尔® 至强® CPU Max 系列处理器,在硬件基座之外,英特尔还借助 IPEX-LLM 大模型库实现推理加速的低精度量化方案,以及基于 OpenVINO™ 工具套件开展的非量化优化方案,双管齐下,能让医疗大模型在至强® 平台上的推理效率得到显著提升。
非量化优化方案针对大模型推理执行过程中海量的内存拷贝开销,提供三个方面的优化,包括:利用零拷贝 (Zero-Copy) 视图来传递预分配的 KV 所需的内存副本空间,使用 OpenVINO™ opset来重构 LLM 的模型架构,以及引入 OpenVINO™ 工具套件在 HuggingFace 上的 Optimum 接口。
优化后,大模型方案能在英特尔® 架构 CPU 平台上获得巨大性能提升,并获得与 GPU 平台相近的性能表现。例如方案在 2K 输入时,经非量化方案优化后,首词延时下降至 2.1 秒,优化幅度达 1.92 倍。平均延时下降至 47.96 毫秒每 Token,优化幅度达 3.81 倍。
![](http://k.sinaimg.cn/n/sinakd20240703s/688/w1080h408/20240703/e449-b9df9207ef75640dbc3cd4deca147e8e.png/w700d1q75cms.jpg)
英特尔非量化方案优化首词延时与平均延时性能均实现提升
结语
AI 正在加速赋能千行百业,重塑人们的生产和生活方式。如何高效地部署 AI 技术与应用的同时,获得更优性价比,是行业开发者目前重点关注的话题。
成熟、稳定,对于开发者也更加熟悉的 CPU 结合当下 AI 场景的真实需求,对软硬件协同调优,为 AI 时代算力话题提供了新的设计思路和丰富的实践案例。未来,CPU 将在 AI 浪潮中发挥怎样的作用,CSDN 将持续关注报道。
![](http://n.sinaimg.cn/finance/pc/cj/kandian/img/article_pic05.png)
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有