后摩智能信晓旭：存算一体解锁AI大模型的边端侧潜力

芯东西（公众号：aichip001）

编辑 | GACS 2024

2024全球AI芯片峰会（GACS 2024）于9月6-7日在北京举行，大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办。在7号下午举行的边缘/端侧AI芯片专场，后摩智能联合创始人、产品副总裁信晓旭以《存算一体，解锁AI大模型的边端侧潜力》为题发表演讲。

在演讲中，信晓旭首先分析了AI技术发展的两大趋势：模型参数的不断扩展和小模型的兴起。后者在端侧和边缘侧展现出巨大潜力。因为端侧和边缘侧的应用更接近实际场景，能够利用丰富的数据资源，为AI技术提供发展土壤。由此，信晓旭强调了端侧和边缘侧在AI创新中的潜力。

信晓旭还梳理了AI芯片发展的两个阶段，提到内存访问效率已成为新的瓶颈。在业界正在探索的几种技术路径中，存算一体技术通过将存储和计算功能集成在同一芯片上，实现了低成本、低功耗和低延迟的优势，与端侧AI芯片的需求高度契合。

最后，信晓旭介绍了这两年后摩智能陆续推出的两种芯片，它们都展现了超过同行2倍的能效优势，还特别实现了对边缘计算场景的定制化优化。此外，据信晓旭透露，基于新架构的M50芯片正在研发，在新架构中，AI核心的性能将总体提升20%。

▲后摩智能联合创始人、产品副总裁信晓旭

以下为信晓旭的演讲实录：

一、相比参数不断增长的大模型，端侧小模型的发展将更有生命力

任何一次里程技术的创新，都是0到1的质变，1后面添加多少个0要看底层的技术，赋能多少应用，解决多少问题。所以谈到这样一次技术革命，最终爆发了多大能量有多大影响力，将完全取决于最后创新。

IT行业发展历程中最有影响力的技术革命分别有两次，一次是计算机技术的革命，一次是通信技术的革命。

先说计算机技术的革命，计算机出来的时候是计算导弹的飞行轨迹，如果没有用到个人电脑上，没有更多的应用，像播放器等等，它还是实验室的实验工具。通信技术最开始做的最高效的通信，无时无刻不在的通信。大家可以看到现在整个移动互联网以及APP应用完全离不开了。

任何一次的技术革命都会经历几个不同的阶段：前期技术非常非常炫酷，然后找到应用、应用场景去解决一些问题，最后实现商业闭环这样一个过程。大模型发展的当下，最最重要的事情就是找到应用、对应的应用场景。那么，下一个杀手级应用到底是什么？

再说到AI的技术发展，从AlphaGO到ChatGPT，这个过程中一直是沿着两个路径走。一个是越做越大的模型参数，实际上是探索了当前这个技术路线的边界。技术发展到现在，我们很欣喜的发现了另外一条路径——一些小模型的出现。大家开始尝试把AI能力用在更多的场景中，以更简单的方式、更少的成本部署到各个终端里。

这种模型正在陆陆续续推出，它们也展示了非常好的能力。像Llama，是在端侧和边缘侧对于应用创新中的一大步。这些端侧和边缘侧的应用不仅更接近实际场景，而且能够利用丰富的数据资源，为AI技术的发展提供肥沃的土壤。

从过往的历史可以看出，大部分技术革命都产生在端侧，比如移动互联网时代的手机等等。AI发展到现在，端侧展现出更多的生命力。应用创新还会继续发生在端侧和边缘侧。

二、存算一体技术与端侧AI芯片的需求高度契合

AI芯片的发展经历了两个阶段。

第一阶段缺乏专门处理矩阵和张量计算的处理器，AI芯片面临着计算效率低下的挑战。为了解决这一问题，业界推出了如英伟达的Tensor Core和华为昇腾的CUBE等技术，显著提升了计算能力。

然而，随着计算能力的提升，内存访问效率成为了新的瓶颈，尤其是在处理大模型时，内存访问的需求更为迫切。这种现象被称为“Memory Wall”（存储墙），它已成为当前AI芯片设计中亟待解决的关键问题。我参加过两次峰会，第一次参加峰会的时候，我好像是所有参会嘉宾中唯一一个讲存算一体的。而这次峰会上有很多人都提到了这个事情，说明大家都关注到了这样一个痛点，我们当下就需要解决这样一个问题。

其实解决这个“Memory Wall”的问题，大家都在尝试不同的路径。有两个技术路线。其中一种方法是通过封装技术将计算单元与存储单元更紧密地集成，如HBM技术的成功应用。然而，尽管这种技术在云端应用中表现出色，但其高昂的成本使得端侧应用难以承受。边端侧的AI芯片相对于云端来说有它特殊的需求，对功耗、对成本更敏感。我们其实需要摸索出一个更符合它需求的路径。

存算一体其实是很多厂家都在尝试走的技术路线。存算一体体现出来三个优势，低成本、低功耗、低延迟。这些特点非常符合边端侧AI低功耗、低成本的需求。

三、后摩智能存算一体芯片能效比优势显著，特别针对边缘计算场景优化

在创业之初，存算一体不是太多人知道，只有学术界知道。现在，存算一体开始在产业界落地。能走到这一步还是很欣慰，越来越多志同道合的朋友开始在这个领域里深耕。

我们公司做存算一体相对比较早。在过去四年中，我们一直在探索存算一体技术在端侧AI、边缘测AI的技术路径和产品化。

我们陆续推出了两款芯片。2023年推出了第一款后摩鸿途®️H30的芯片，整体算力超过了我们原本的预期。今年推出了第二款芯片——后摩漫界™️M30，算力达到了100TOPS，功耗12W左右。

我们的H30和M30芯片在能效比方面表现出色。它们每瓦特的计算效率基本上达到了7-8TOPS，我们的友商在3TOPS左右。这是超过2倍的能效优势。这样一个数据，更坚定了我们的信心：我们用存算一体的架构，在可以拥有更好的产品的同时，还可以实实在在解决计算效率的问题。

我们的芯片针对边缘计算场景进行了优化。这些优化措施包括采用量化技术来降低模型的计算和存储需求，这对于成本敏感的边缘设备市场至关重要。量化技术通过减少模型参数的精度，从而减少模型大小和计算量，使得大模型可以在不影响性能的前提下部署到边端设备中。

我们把行业非常主流的大模型部署在了存算一体的芯片上，都可以顺利运行，结合上下文、硬件以及其他配置等因素，整体运行性能在15Tokens到20Tokens之间。

除了芯片之外，我们还提供了多种产品形态以满足不同场景的需求，包括标准的PCIe加速卡、M.2计算模组以及Som计算模组。

结语：下一代M50芯片正在研发，AI核心的性能将总体提升20%

我们的H30和M30芯片是基于第一代天枢架构设计的。而现在，新一代的天璇架构已经完成，它在天枢架构的基础上进行了改进和优化。在新的天璇架构中，AI核心的性能总体而言提升了20%。

基于天璇架构会推出M50的芯片，现在在开发阶段，下一次演讲可能就是揭开面纱的时候。