首页 > 编程语言> > 梯度下降算法

梯度下降算法

2021-03-14 13:31:26 作者：互联网

梯度下降算法（Gradient Descent Optimization）是神经网络模型训练最常用的优化算法。原理：目标函数关于参数的梯度将是目标函数上升最快的方向。对于最小化优化问题，只需要将参数沿着梯度相反的方向前进一个步长，就可以实现目标函数的下降。
梯度下降算法又可以分为：
1.批量梯度下降算法（Batch Gradient Descent）在整个训练集上计算的，如果数据集比较大，可能会面临内存不足问题，而且其收敛速度一般比较慢。
2.随机梯度下降算法（Stochastic GradientDescent）针对训练集中的一个训练样本计算，又称为在线学习，即得到了一个样本，就可以执行一次参数更新。其收敛速度会快一些，但是有可能出现目标函数值震荡现象。
3.小批量梯度下降算法（Mini-batch Gradient Descent）。选取训练集中一个小批量样本计算，这样可以保证训练过程更稳定，是目前最常用的梯度下降算法。
梯度下降算法针对凸优化问题原则上可以收敛到全局最优，因但深度学习模型是一个复杂的非线性结构，一般属于非凸问题，这意味着存在很多局部最优点（鞍点），采用梯度下降算法可能会陷入局部最优。理想的梯度下降算法要满足两点：收敛速度要快；能全局收敛。
梯度下降算法变种：
1.冲量梯度下降算法（Momentum optimization）参数更新时不仅考虑当前梯度值，而且加上了一个积累项（冲量），但了一个超参数。
2.NAG算法(Nesterov Accelerated Gradient)计算“超前梯度”更新冲量项。
3.AdaGrad。一种学习速率自适应的梯度下降算法。在训练迭代过程，其学习速率是逐渐衰减的，经常更新的参数其学习速率衰减更快。
4.RMSprop。类似Momentum思想，引入一个超参数，在积累梯度平方项进行衰减。
5.Adam(Adaptive moment estimation)结合了Momentum和RMSprop算法的思想。相比Momentum算法，其学习速率是自适应的，而相比RMSprop，其增加了冲量项。
在这里插入图片描述

标签：Gradient,梯度,下降,算法,参数,Momentum
来源： https://blog.csdn.net/qq_41896151/article/details/114784898