【李宏毅2020 ML/DL】P45-50 Network Compression
作者:互联网
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-notes
本节内容综述- 为什么提出模型压缩?因为我们有把Deep Model放在移动端设备的需求,因此要压缩空间、加快计算速度。
- 李老师不擅长硬件,因此今天的内容中没有这方面的。
- 第一部分是 Network Pruning 。最后得出结论,对神经元而非weight进行Pruning,可以保留转换成矩阵的特性,不会在运算速度上造成伤害。
- 接下来是 Knowledge Distillation 的内容。
- 第三部分是 Parameter Quantization 。
- 第四部分是 Architecture Design,李老师认为这可能是最有效的做法之一。
- 最后,简单介绍了一下 Dynamic Computation 。
文章目录
- 本节内容综述
- 小细节
小细节
Network Pruning
Networks are typically over-parameterized (there is significant redundant weights or neurons).
Prune them!
在生物学,在90年代就有《Optimal Brain Damage》这样的文章,相关研究。
如何做
对于一个神经网络,可以通过衡量并去除其不重要的weight或者neuron,得到新网络。
之后,再用数据训练。
注意,不要一次 remove 太多东西,否则网络可能不会 recover 。一般来讲,都是多次做几次 fine-tune 。
Why Pruning?
How about simply train a smaller network?
It is widely known that smaller network is more difficult to learn successfully.
Larger network is easier to optimize?https://www.youtube.com/watch?v=_VuWvQUMQVk
有一篇论文提出了“大乐透假设”:Lottery Ticket Hypothesis。
Lottery Ticket Hypothesis
如上,对完整的网络初始化、训练、压缩,之后:
- 如果对新的小网络完全重新初始化,那么不会训练成功;
- 如果对新的小网络像之前一样初始化,那么会训练成功。
作者由此提出:可能神经元会不会被训练起来,与初始值有很大关系,是一种大乐透现象。
Rethinking the Value of Network Pruning
但是这篇文章,正好得出了与“大乐透假设”相反的结论。
Network Pruning - Practical Issue
如上,做完了 Pruning 的网络,难以组成矩阵,用 GPU 加速了…因此,实际操作上,可能直接把 Pruning 掉的量直接设为 0 。
但是,这样又不会让网络占有的空间变小。因此,实际应用中,运行 Pruning 后的网络是一件比较复杂的事。
如上,发现如果使用取消了连接的 Pruning 后的网络,使用 GPU 的加速并快不到哪里去。
因此,如上,直接去掉某一个神经元是一个比较好的 Pruning 方向。这不会增加计算负担,不会妨碍构成矩阵运算。
Knowledge Distillation
训练一个大网络,用小网络(Student Net)学习大网络。
为什么这样有用?因为小网络学的是一个基于大网络的 distillation 。不仅仅学到一个输出神经元的价值,而是多个神经元的输出。
此外,实际上可以用 Student Net 学习集成模型。这样大大起到了压缩空间的效果,又能较好地进行学习。
Temperature
如上,在输出层,我们为Target Network在做 softmax 除以一个“温度”(通常大于1),以此,让这些值变得相近,方便 Student Network 的学习。
李老师:作业证明,加了温度也不会有什么额外的效果...
Parameter Quantization
- Using less bits to represent a value.
- Weight clustering.
如图,只要保存各个参数的类别,以及类别对应的数值表就可以。
此外,还可以进行哈夫曼编码等压缩。
Binary Weights
如图,对神经网络进行梯度下降,进行优化;最后把参数都元整为1或-1,则参数就可以用一个位来表示了。记录这个模型。
如图,发现在不少问题上,有了 Binary Connect 效果更好。这可能因为 Binary Weights 本身就是一种正则。
Architecture Design
Low rank approximation
如图,加了一层,是有可能让参数变小的。
Review: Standard CNN
如图,标准的CNN架构,其中两个通道,4个filter,一共有72个参数。
Depthwise Separable Convolution
首先,在 Depthwise Convolution 中,我们的 filter 不是立体的,不需要多通道高,每个 filter 只处理自己的 channel 。
接下来,用 Pointwise Convolution 中,用 1×1 的filter 进行多通道卷积。
这样,其 input 与 output 与标准的卷积层相比,参数少了许多,只有18+8=26个。
具体解释一下,如上图,Depthwise Separable Convolution进行了“参数共享”。
如上,因为一般来输出的通道数 O O O 可能很大, 1 O ≈ 0 \frac{1}{O} \approx 0 O1≈0;可见,Depthwise Separable Convolution能优化的大小与卷积核尺寸有关。
其应用有很多:
- SqueezeNet
- MobileNet
- ShuffleNet
- Xception
Dynamic Computation
如图,根据目前情况,选择不同的计算方案(强力的耗费资源的,或弱小的但不费资源的)。
有几个解决方案:
- 训练大量的分类器(从小到大),但是这样会占用存储空间;
- 可以将不同的 layer 提取,从而有不同的分类器。如下图。
但是,如上图两个表,这也会面临两个问题:
- 靠近输入层的layer其output对于任务表现并不好;
- 此外,对中间层进行训练,还会影响整体网络的性能。
Multi-Scale Dense Networks
李老师提及了 Multi-Scale Dense Networks,让大家可以参考。
标签:DL,Convolution,Depthwise,李宏毅,网络,如图,Pruning,Network 来源: https://blog.51cto.com/u_15279775/2938526