SiMa.ai以“软件优先”概念开发全新边缘AI处理器_

一种新的“软件优先”SoC设计理念旨在实现前所未有的边缘人工智能计算。

我们这一代的主要技术挑战之一是边缘计算：如何处理计算密集型 AI 任务并在资源受限的嵌入式产品上执行它们。在这种追求中，当设计人员试图同时平衡低功耗、低成本和高性能时，硬件和软件从根本上是不一致的。

机器学习硬件初创公司 SiMa.ai 现在正试图通过设计“软件优先”的硬件来应对这一挑战，以实现前所未有的边缘 AI 性能。本周，SiMa.ai 发布了他们的新 MLSoC 平台，这是一个以 ML 为中心的 SoC，旨在让边缘 AI 比以往任何时候都更加直观和灵活。

在本文中，我们将讨论边缘 AI 的现状以及 SiMa.ai 的新平台希望如何解决它的一些缺点。

边缘人工智能的现状

在将 AI 带到边缘（也称为 TinyML）时，该过程通常以硬件为中心。

一般来说，边缘人工智能面临的挑战是设备资源非常有限，RAM、处理能力和电池寿命有限。正因为如此，TinyML 设计过程通常围绕着将机器学习模型定制到设备的大多数预先确定的硬件功能上。

量化感知训练流程图。图片由 Novac 等提供

为此，软件流程包括采用给定的机器学习模型，在所需数据集上对其进行训练，然后将其缩小以适应边缘设备的约束。这种模型缩放通常是通过量化过程来完成的，量化过程是降低模型权重和参数的精度以减少内存消耗的过程。

通过这种方式，TinyML 工程师可以采用大型机器学习模型，该模型旨在部署在更强大的设备上，并将其缩小以适应边缘设备。

正如 SiMa.ai 所看到的，这个工作流程的问题在于模型实际上并不是为边缘设计的，而是为大型模型而设计的。这在性能和灵活性方面受到限制，因为模型从未真正针对硬件进行过优化，反之亦然。

SiMa 的新 SoC 解决方案

为了解决这个问题，SiMa.ai 最近发布了他们的 MLSoC 平台，这是一个“软件优先”的边缘 AI SoC。

MLSoC 平台基于 16nm 工艺构建，是一种异构计算片上系统 (SoC)，集成了许多用于 AI 加速的专用硬件模块。在这些硬件中，模块包括 SiMa.ai 的专有机器学习加速器 (MLA)。该公司表示，它以 10 TOPS/W 的速度为神经网络计算提供50 TOPS性能。

SoC 的应用处理单元 (APU) 由四个 1.15 GHz Arm Cortex-A65 双线程处理器组成的集群。还有一个视频编码器和解码器模块以及一个计算机视觉单元 (CVU)，它由一个四核 Synopsys ARC EV74 嵌入式视觉处理器组成。这些模块由 4 MB 片上存储器以及 32 位 LPDDR4 DRAM 接口支持。更多信息可以在 MLSoC 产品简介中找到。