amazon发布可以使用设备上的语音识别系统Alexa

amazon发布可以使用设备上的语音识别系统Alexa
2021年10月26日 14:31 科技实记

从历史上看,Alexa 的自动语音识别模型将语音转换为文本,在云中运行。但近年来,amazon一直致力于将更多 Alexa 的计算能力转移到网络边缘——转移到支持 Alexa 的设备本身。

迁移到边缘有望加快响应时间,因为数据不必往返于云端;降低 Internet 带宽消耗,这在某些应用程序中很重要;以及在互联网连接不一致的设备上的可用性,例如支持 Alexa 的车载音响系统。

在今年的 Interspeech 上,Amazon和Amazon的同事提交了两篇论文,描述了Amazon正在引入的一些创新,以使在边缘运行 Alexa 变得切实可行。

在一篇名为“用于低延迟语音识别的摊销神经网络”的论文中,Amazon展示了如何将基于神经网络的自动语音识别 (ASR) 的计算成本降低 45%,而不会降低准确性。Amazon的方法还具有比减少计算的类似方法更低的延迟,这意味着它使 Alexa 能够更快地响应客户请求。

在另一篇论文“学习语音模型的神经差异”中,Amazon展示了如何显着减少更新边缘神经模型所需的带宽。Amazon不是传输完整的模型,而是传输一些选定参数的更新集。在Amazon的实验中,这将更新的大小减少了 98%,对模型精度的影响可以忽略不计。

神经 ASR 模型通常是编码器-解码器模型。编码器的输入是一系列称为帧的短语音片段,编码器将其转换为对解码有用的表示。解码器将该表示转换为文本。

神经编码器可能非常庞大,每个输入都需要数百万次计算。但大部分语音信号都没有信息,包括音节之间的停顿或多余的声音。通过巨大的编码器传递无信息帧只是浪费计算。

Amazon的方法是使用多个不同复杂度的编码器,并即时决定哪个应该处理给定的语音帧。这个决定是由一个称为仲裁器的小型神经网络做出的,它必须在编码之前处理每个输入帧。仲裁器为该过程增加了一些计算开销,但使用更精简的编码器节省的时间足以抵消它。

研究人员曾在语音以外的领域尝试过类似的方法,但在训练模型时,他们将帧编码过程的平均复杂度降至最低。这留下了信号的最后几帧可能传递到更复杂的编码器的可能性,从而导致延迟(增加延迟)。

上面(a 和 b)的两个处理流程分别将相同数量的帧分配给快速和慢速(F 和 S)编码器,从而导致相同的平均计算成本。但是顶部流会导致明显更高的延迟。

在Amazon的论文中,Amazon提出了一个新的损失函数, 当Amazon没有大量的音频积压时,它会增加一个惩罚(上图中的L amr)以将帧路由到快速编码器。在没有惩罚项的情况下,Amazon的分支编码器模型将延迟减少到 29 到 234 毫秒,而具有单个编码器的模型则为数千毫秒。但是添加惩罚项可以进一步减少延迟,达到 2 到 9 毫秒的范围。

音频积压是仲裁器在决定哪个编码器应接收给定音频帧时考虑的因素之一。

在Amazon的实验中,Amazon使用了两种编码器,一种是复杂的,一种是精益的,但原则上,Amazon的方法可以推广到更多的编码器。

Amazon一起训练仲裁器和两个编码器,端到端。在训练期间,相同的输入通过两个编码器,并且基于生成的语音转录的准确性,仲裁器学习概率分布,该分布描述应该将具有某些特征的帧路由到慢速或快速编码器的频率。

在多个时期——多次通过训练数据——Amazon调高仲裁器的“温度”,更显着地扭曲它学习的分布。在第一个纪元中,某种类型的帧的拆分可能是朝着一个编码器或另一个编码器的 70%-30%。然而,在三到四个 epoch 之后,所有的分割都更像是 99.99%-0.01%——本质上是二元分类。

Amazon在实验中使用了三个基线,所有这些都是单编码器模型。一个是全参数模型,另外两个是同一模型的压缩版本。其中一个通过稀疏化(修剪非必要的网络权重)进行压缩,另一个通过矩阵分解(将模型的权重矩阵分解为两个相乘的较小矩阵)进行压缩。

针对基线,Amazon比较了Amazon模型的两个版本,它们通过相同的两种方法进行了压缩。Amazon在单线程处理器上以每秒 6.5 亿次 FLOP 的速度运行所有模型。

Amazon的稀疏模型延迟最低——2 毫秒,而基线为 3,410 到 6,154 毫秒——Amazon的矩阵分解模型每帧需要最少数量的浮点运算——2300 万次,而基线为 3000 万到 4300 万次. 然而,Amazon的准确性仍然相当——单词错误率为 8.6% 到 8.7%,而基线为 8.5% 到 8.7%。

神经差异

支持 Alexa 的 ASR 模型不断更新。例如,在奥运会期间,Amazon预计使用“Ledecky”和“Kalisz”等词的请求会激增,并相应地更新了Amazon的模型。

使用基于云的 ASR,当Amazon更新模型时,Amazon只需将其副本发送到数据中心的少数服务器。但是使用边缘 ASR,Amazon最终可能需要同时向数百万台设备发送更新。因此,Amazon的研究目标之一是最小化边缘更新的带宽要求。

在Amazon的另一篇 Interspeech 论文中,Amazon从软件工程中借用了一个想法 - diff的想法 ,或者是一个文件,用于绘制代码库的先前版本与当前版本之间的差异。

Amazon的想法是,如果Amazon可以为神经网络开发等效的 diff,Amazon可以使用它来更新设备上的 ASR 模型,而不必在每次更新时传输完整网络的所有参数。

Amazon尝试了两种不同的方法来创建差异,矩阵稀疏化和散列。对于矩阵稀疏化,Amazon从两个相同大小的矩阵开始,一个表示现有 ASR 模型中连接的权重,另一个表示全为零。

然后,当Amazon在新数据上重新训练 ASR 模型时,Amazon更新的不是旧模型的参数,而是第二个矩阵中的条目——差异。更新后的模型是原始权重和差异中的值的线性组合。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部