其他分享
首页 > 其他分享> > 机器学习——小批量梯度下降

机器学习——小批量梯度下降

作者:互联网

  在了解了经典的梯度下降和随机梯度下降,并且知道其不同之处主要在于迭代过程中目标函数选择的不同。经典梯度下降虽然稳定性比较强,但是大样本情况下迭代速度较慢;随机梯度下降虽然每一步迭代计算较快,但是其稳定性不太好,而且实际使用中,参数的调整往往更加麻烦。
  所以,为了协调稳定性和速度,小批量梯度下降应运而生。小批量梯度下降法和前面两种梯度下降的主要区别就是每一步迭代过程中目标函数的选择不同。小批量梯度下降是从 $n$ 个样本中随机且不重复地选择 $m$ 个进行损失函数的求和
    $\sum \limits _{i=1}^{m}\left(w x_{i}+b-y_{i}\right)^{2}$
  并将其作为每一步迭代过程中的目标函数。此时,迭代公式中的梯度也就变成了
    $\left(\frac{\partial g}{\partial w}, \frac{\partial g}{\partial b}\right)=\left(2 \sum \limits _{i=1}^{m} x_{i}\left(w x_{i}+b-y_{i}\right), 2 \sum \limits _{i=1}^{m}\left(w x_{i}+b-y_{i}\right)\right)$
  显然,$m=1$ 时,小批量梯度下降就是随机梯度下降,$m=n $ 时,小批量梯度下降就是经典梯度下降。同时,我们也把经典的梯度下降方法称之为全批量梯度下降。这里的 $m$ 一般称之为批量尺寸,其值的选择对于收敛的稳定性和速度有着较大的影响,也是一个技术活。
  其他的也没什么好分析的了,基本上和随机梯度下降差不多。

标签:right,机器,迭代,梯度,下降,小批量,left
来源: https://www.cnblogs.com/BlairGrowing/p/15060755.html