动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%
作者:互联网
动态slimmable网络:高性能的网络轻量化方法!对比slimmable涨点5.9%
论文链接:
https://arxiv.org/abs/2103.13258
代码:
https://github.com/changlin31/DS-Net
一、研究动机
动态剪枝算法及其问题
动态网络为每个输入自适应地配置不同的网络结构,而不是像神经网络搜索(NAS)或剪枝那样在整个数据集上优化网络结构,例如,根据每张输入图像的分类难度,将其路由到不同的计算复杂度的网络结构减少了在简单样本上的计算浪费,提高网络效率(见上图)。
其中动态剪枝方法,作为剪枝的自然扩展,在运行时根据不同的输入对卷积滤波器进行预测剪枝。这种变化的稀疏模式(spasepattern)与硬件计算不兼容。实际上,许多算法都是以零掩码(zero-masking)或低效路径索引(indexing)的方式实现的,这使得理论分析与实际加速之间存在很大的差距。如上表所示,masking和indexing都没有实际的加速效果,导致了计算浪费。本文作者提出一种致密(dense)的动态channel切分(dynamic channel slicing)方法,达到了与理论相符的加速效果(见上表)。
二、动态宽度可变超网络
Dynamic Slimmable Supernet
动态宽度可变网络(DS-Net)通过学习一个宽度可变超网络和一个动态门控机制来实现不同样本的动态路由。如上图所示,DS-Net中的超网络(上图黄色框)是指承担主要任务的整个模块。相比之下,动态门控(上图蓝色框)是一系列预测模块,它们将输入样本路由到超网络的不同宽度的子网络。
之前的动态网络工作将门控和超网络一起训练,而本文为了提高超网络中每个子网络的泛化性,提出了解缠的两阶段训练方法:
在第一阶段,禁用门控并用IEB技术训练超网络;
在第二阶段,固定超级网的权重并用SGS技术训练动态门控。
1.动态超网络(supernet)和动态可切分(slice-able)卷积
为避免产生稀疏channel,作者提出动态可切分(slice-able)卷积,通过预测出的剪枝率
标签:slimmable,涨点,训练,剪枝,网络,gate,动态,门控 来源: https://blog.csdn.net/jacke121/article/details/116140608