LeCun带两位UC伯克利华人博士提出「循环参数生成器」，一个参数重复用！_

模型压缩，我所欲也，模型性能，亦我所欲也；

二者不可得兼？

且慢，小孩子才做选择！

虽说参数数量越多，模型性能越好，但显然过参数化的模型太占用资源。

尤其是GPT-3，参数高达1750亿个！

为解决这一问题，研究人员试图从不同角度来减少参数的冗余，包括神经网络剪枝、参数正则化、模型量化、网络结构搜索、循环模型……

这些方法尝试从预训练的大型神经网络中删去不重要的参数，实现对大模型的压缩。

近日，LeCun的研究团队就发表了一篇题为「循环参数生成器」（Recurrent Parameter Generators）的论文。

其中，循环参数生成器可以被看作是模型压缩的一种逆向方法，其目的不是从一个大的模型中去除多余的参数，而是将更多的信息挤压到少量的参数中。

论文地址：https://arxiv.org/pdf/2107.07110.pdf

论文主要带来了三点贡献：

1. 循环参数生成器 (RPG)能使用任意数量的参数来构建给定的神经网络。

2. 在给定的压缩率下，RPG与SOTA的模型剪枝方法相比，实现了同等甚至更好的性能。

3. 通过破坏权重共享，RPG与几种循环权重共享模型相比，拥有更强的性能。

参数更少，更灵活

在标准神经网络中，所有参数都是相互独立的，所以，模型越深，也就变得越大。

而RPG则在一个环中共享一组固定的参数，并利用它们来生成神经网络中不同部分的参数。

模型的第三部分（黄色）开始与环中的第一部分（红色）重叠，所有后面的层可能会多次共享生成的参数。

以ResNet34为例，应用RPG后，只需要骨干参数的一半，也能够实现相同的ImageNet top-1的精度。

研究发现，即使在单个标量值级别，参数也可以在深度网络架构的另一个任意位置重新使用，不会对模型性能产生明显影响。

而出乎意料的是，对于相同参数能够分配到网络的多个随机位置问题，能够通过深度网络的反向传播训练来解决，同样也不会对模型性能产生明显影响

因此作者表示，要想有高性能，并不代表着大型神经网络就要过度参数化。

此外，将Resnet18模型一个卷积层的权重数量减少4.72倍也能达到ImageNet top-1精度的67.2%。

从某种意义上说，RPG可以看作是一种自动模型剪枝技术，探索精度与参数之间的最优解。

而除了灵活性之外，其压缩结果往往与SOTA剪枝方法相当，甚至要更好。

即使将Resnet18骨干参数减少到36K，也就是减少了约300倍，Resnet18仍然可以达到ImageNet top-1精度的40.0%。

包括图像分类（左）、人体姿势估计（中）和多任务（右）

循环参数生成器

为了实现更好的参数容量，作者引入了一种均匀的采样策略。

假设正在构建一个深度卷积神经网络，它包含L个不同的卷积层。让K1, K2, ...... , KL是相应的L个卷积核。

并创建一个单一的参数集W∈RN，用它来为每个卷积层生成相应的参数。

其中Ri是一个固定的预定义生成矩阵，用于从W中生成Ki，其中{Ri}和W即为循环参数生成器（RPG）。

此外，W的梯度是每个卷积层的梯度的线性叠加。根据链式规则可以得到W的梯度是：

不同规模的循环参数生成器

除了创建一个在所有层中全局共享的RPG。作者还提出了在块和子网络规模上创建局部RPG。

一个全局RPG为整个ResNet18生成卷积核；4个局部RPG分别负责为ResNet18的模块生成卷积核

以ResNet18为例， ResNet18有4个构建块，其中每个块有2个残差卷积模块。

为了在块规模上叠加ResNet18，作者创建了四个局部RPG。每个RPG都在相应的构建块内共享，其中RPG的大小是灵活的，可由用户决定。

许多任务可以重新使用子网络或循环网络，因为它们通过迭代完善和改进了预测。

通常而言，在重复使用子网络时，权重是共享的，但这可能不是最优方案。

因为不同阶段的子网络迭代会改进预测，共享权重也可能会限制适应不同阶段的学习能力。另一方面，完全不共享权重还会极大增加模型大小。

因此作者尝试将不同的子网络与一个或多个RPG进行叠加。经过叠加的子网络可以有更小的模型尺寸，而不同子网络的参数会发生变化，而不是直接复制粘贴。

图像分类

在进行CIFAR测试时，批大小为128，权重衰减为5e-4，初始学习率为0.1，gamma为0.1，epoch为60、120和160。

在进行ImageNet测试时，批次大小为256，权重衰减为3e-5，初始学习率为0.3，每75 epochs的gamma为0.1。

作为隐含模型的代表，深度均衡模型可以通过额外的优化寻找固定点来减少模型的冗余度。

与MDEQ相比，RPG可以在CIFAR10上将精度提高3.4% - 5.8%，在CIFAR100上提高3% - 5.9%。

推理时间方面，RPG则比MDEQ少15-25倍，因为MDEQ在训练期间需要额外的时间来解决平衡问题。

与ResNet相比，拥有全局RPG的ResNet-RPG在相同的参数大小下取得了更高的精度。

而ResNet-RPG34只用了ResNet34骨干参数的50%就达到了相同的精度73.4%。

令人意外的是，作者发现在CIFAR100上达到36%的精度只需8K骨干参数。

此外，ResNet34-RPG比ResNet18-RPG实现了更高的精度，这表明时间复杂度的增加提升了模型的性能。

与相同参数数量的标准ResNet18相比，局部RPG网络可以将精度提升1.0%。相比之下，全局RPG在精度上提升了1.4%。

也就是说，参数均匀分布的全局RPG在精度上会比多个局部RPG高0.4%。

作者简介

Jiayun Wang，2018年毕业于西安交通大学电子工程系，如今是UC伯克利分校视觉科学项目博士候选人，研究领域为计算机视觉，导师是Stella Yu。

Yubei Chen，2012年获得清华大学电气工程系学士学位，后加入UC伯克利分校的EECS系和伯克利人工智能研究所 (BAIR)，攻读博士学位，在Bruno Olshausen教授指导下研究生成式无监督学习模型。

就读UC伯克利期间，获得了EECS硕士学位和数学硕士学位。

2012年曾获得NSF GRFP奖学金，此外还担任NeurIPS、ICLR、ICML、AAAI等大会的论文审稿人。

参考资料：

https://arxiv.org/pdf/2107.07110.pdf

头条号入驻

新智元智能+中国主平台领航中国新智能时

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

LeCun带两位UC伯克利华人博士提出「循环参数生成器」，一个参数重复用！

头条号入驻

AI时代新风口！吴恩达亲授智能体四大设计模式

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

专治大模型说胡话，精确率100%！华科等提出首个「故障token」检测/分类方法

财经自媒体联盟更多自媒体作者

热文排行榜