随机梯度下降
作者:互联网
-
使用整个训练集的优化算法称为批量算法,因为它们会在一个大批量中同时处理所有样本。每次只使用单个样本的优化算法称为随机梯度算法。
-
批量梯度下降每次学习都使用整个训练集,其优点在于每次更新都会朝着正确的方向进行,最后能够保证收敛于极值点,这样其收敛速度快、迭代次数少。但是其缺点在于每次梯度更新需要遍历整个数据集,需要计算量大,消耗内存多,特别是在数据集比较大的时候,同时还不利于分布式训练。
-
随机梯度下降算法每次只随机选择一个样本来更新模型参数,因此每次的学习是非常快速的。随机梯度下降最大的缺点在于每次更新有时不会按照梯度下降最快的方向进行,因此可能带来扰动。对于局部极小值点,扰动使得梯度下降方向从当前的局部极小值点跳到另一个局部极小值点,最后难以收敛。由于扰动,收敛速度会变慢,神经网络在训练中需要更多的迭代次数才能达到收敛。
标签:极小值,梯度,下降,算法,随机,收敛,每次 来源: https://blog.csdn.net/szn1043862535/article/details/120926210