深度学习训练中是否有必要使用L1获得稀疏解
作者:互联网
1、近端梯度下降 proximal gradient descent
对于凸优化问题,当其目标函数存在不可微部分(例如目标函数中有 [公式] -范数或迹范数)时,近端梯度下降法才会派上用场
https://zhuanlan.zhihu.com/p/82622940
2、神经网络中使用L1z正则,获取参数的稀疏性
https://zhuanlan.zhihu.com/p/22099871
Caffe中每层使用L1正则,参数并不是稀疏的原因:1、CNN的参数和Loss关系并不是凸函数,并且Caffe中求解L1的算法使用的是最基础的subgradient descent,所以不能达到稀疏的效果 2、实验使用近端梯度下降可以达到稀疏性效果
3、
标签:梯度,L1,稀疏,Caffe,深度,范数,近端 来源: https://www.cnblogs.com/pyclq/p/15389386.html