[深度学习笔记一] batch大小对训练的影响
作者:互联网
- batch的选择,决定的是梯度下降的方向。
- 对小的数据集,可以采用Full Batch Size,这样可以更加准确地找出最佳的梯度方向。但是不同的权重的梯度值差距巨大,因此选择全局学习率困难。可以使用Rprop单独更新各权值
- 对大的数据集,全部载入数据,会被内存大小限制,Rprop会因为采样差异性,导致梯度互相抵消。
- 在合理范围内,增大batch,可以提高内存利用率,更快地跑完一次数据集,下降方向更准,减少震荡。
- 盲目增大batch,内存容量限制,学习的比较粗糙,精度会较低,增大到一定程度,下降的方向基本不变。
- batch太小,收敛较慢。虽然batch小的时候,随机性大一些,有时候会有更好的表现
- 如果增加了学习率,batch size最好随着增加,这样收敛更稳。
- 增大batch,等效于衰减学习率。较大的学习率有更好的泛化能力,呼应第5点。batch增大会降低精度
- 随着batch normalization的普及,一般采用较大的batch size,较小的batch size之后做 batchnorm会导致mean和variance偏移。
标签:梯度,batch,笔记,学习,深度,Rprop,size,增大 来源: https://blog.csdn.net/weixin_41342624/article/details/104875192