其他分享
首页 > 其他分享> > 【Generalization-Stability Tradeoff】2020-NIPS-The Generalization-Stability Tradeoff In Neural Network

【Generalization-Stability Tradeoff】2020-NIPS-The Generalization-Stability Tradeoff In Neural Network

作者:互联网

GST

2020-NIPS-The Generalization-Stability Tradeoff In Neural Network Pruning

来源:ChenBong 博客园


Introduction

剪枝算法 Generalization 与 Stability 的关系

Generalization:泛化性、泛化能力,在 unseen 的 data 上的性能,可以简单理解为测试集准确率,泛化能力好,测试集准确率高,Generalization gap(training acc - test acc) 小,过拟合程度低。

instability:不稳定性,剪枝算法执行前后,网络的性能下降比例,\(instability_{i}=\frac{t_{\mathrm{pre}, i}-t_{\mathrm{post}, i}}{t_{\mathrm{pre}, i}}\)

Stability:稳定性,1-instability

image-20201027184420188

Motivation

Contribution

Method

剪枝流程:迭代剪枝

image-20201027184420188

在图例中,

剪枝间隔 r 与 Stability:剪枝间隔越小,每次剪掉的比例越低,Stability 稳定性越高

每次剪枝比例 与 Stability:每次剪枝比例越小,Stability 稳定性越高

剪掉 Smallest/Largest score 与 Stability:每次剪掉 Smallest score filter,Stability 稳定性越高

Experiments

稳定性 与 泛化能力(test acc)

4种配置:

稳定性:No Pruning > Prune_S 1% > Prune_S 13% > Prune_L 13%

image-20201027191923070

左图:

右图:

那么能否通过(调节某个超参,如增大剪枝间隔r 来)不断减小剪枝算法的稳定性,来提高test acc呢?

以 剪枝间隔 r 这个超参为代表,研究超参与稳定性/泛化能力的关系

剪枝间隔 r (超参) 与 稳定性 vs 泛化能力/负相关系数

图例:image-20201027194950416

剪枝间隔 r 与 稳定性

image-20201027194252924

x:剪枝间隔r;y:平均稳定性

(90% 的剪枝率, 分 r 次剪)剪枝间隔越大,(每次剪的就越多),稳定性越差

剪枝间隔 r 与 test acc(泛化能力)

image-20201027194550909

x:剪枝间隔 r;y:test acc(泛化能力)

对于每次剪掉 Smallest 来说,在一定范围内,剪枝间隔越大,test acc 越高

剪枝间隔 r 与 (泛化能力 与 稳定性的负相关系数)

image-20201027195312365

x:剪枝间隔;y:负相关系数

剪枝间隔 r 越大,负相关性越弱

说明剪枝间隔 r(超参)在一定范围内,泛化能力与稳定性都是负相关的,即可以通过增大剪枝间隔r,进而降低方法的稳定性,进而提高泛化能力(test acc),但当 剪枝间隔 r(超参)超出一定的范围,不再具有负相关性,再提高剪枝间隔r,也无法提高最终的性能(泛化能力)

剪枝 与 noise injection 的等价性

剪枝 与 权重置零 与 权重加噪声:

image-20201027200938842 image-20201027200723932

在没有减少参数量的情况下,使网络的性能提高到比 剪枝方法 还要高

说明剪枝为什么能够提高网络性能的 “减少参数量,减少网络对噪声的过拟合,从而提高泛化能力(test acc)” 的说法是不够准确的,因为大网络在不减少参数量的情况下,一样可以有很好的 泛化能力,剪枝能提高网络性能的根本原因是在训练过程中引入了训练噪声,从而提高了泛化能力

Conclusion

Summary

To Read

Reference

Understanding deep learning requires rethinking generalization

https://www.zhihu.com/question/56151007

标签:acc,剪枝,泛化,间隔,Generalization,Stability,Tradeoff,test,Prune
来源: https://www.cnblogs.com/chenbong/p/13901944.html