腾讯技术专家刘强在“全球C++及系统软件技术大会”上分享NPU优化洞察_

2024年12月5日至6日，备受业界关注的“全球C++及系统软件技术大会”在上海成功举行。此次大会继续秉承“全球专家、卓越智慧”的理念，邀请到全球C++和系统级软件技术领域的大师、专家、学者，汇聚一堂，围绕现在C++的最佳实践、架构与设计、大模型驱动的软件开发、AI 算力与优化、系统级软件及其他编程语言，深度探讨了系统级软件技术领域的最佳工程实践和前沿方法。

作为数字世界的重要基石，系统级软件和底层技术的研究与创新一直是全球技术领域关注的核心。在本次大会中，刘强作为该领域的资深专家，凭借其在异构硬件接入与性能优化方面的杰出成果，受邀在大会上发表了题为“NPU性能优化、评估和实践”的主题演讲。

刘强拥有超过15年的大数据和软硬件协同经验，曾服务于亚马逊、Marvell等多家国际科技企业。他主导的项目涉及存储、计算加速器和性能评估等多个领域，拥有多项技术专利。在腾讯任职期间，刘强重点负责异构硬件引入相关工作，通过统一硬件抽象层，将不同厂商的NPU运行时接口进行抽象化，使上层业务与算法对硬件差异“无感知”，显著缩短了硬件上线周期并降低了开发成本。这一技术成果不仅提升了腾讯的算力效率，还为行业探索异构计算落地提供了范例。

在大会的演讲中，刘先生首先介绍了当前NPU厂商的发展现状。他指出，随着深度学习和AI技术的快速发展，NPU作为专用算力芯片，正在成为各大互联网企业提升AI性能的关键工具。然而，由于各厂商的硬件架构和设计思路各异，如何实现硬件抽象和性能优化，依然是企业面临的重要挑战。针对这一行业痛点，刘强从实践出发，详细讲述了他及其团队在NPU性能评估中的方法论和解决方案。

他分享了通过深度学习框架（如Pytorch和TensorFlow）内的采样工具，结合厂商提供的算子仿真数据，构建基于时间线的执行路径分析方法。这一模型能够准确预测NPU在真实训练环境中的端到端性能，弥补了传统方法在评估早期性能时的不足。此外，刘强还介绍了硬件抽象的实现路径，展示了基于编译器技术屏蔽硬件差异的探索成果，这一创新显著降低了NPU适配的技术难度。

整场演讲中，刘强不仅分享了技术方法，还结合多个实际案例展示了其成果落地的具体效果。他提到，通过对NPU计算和存储资源的高效管理，腾讯在多个业务场景中成功提升了AI训练和推理效率，显著缩短了上线周期。在谈到未来技术趋势时，刘强强调，随着更多异构计算硬件的出现，行业需要在标准化和生态建设上加大投入，这样才能更好地释放新兴技术的潜力。