动手深度学习笔记(二十二)4.8. 数值稳定性和模型初始化
作者:互联网
动手深度学习笔记(二十二)4.8. 数值稳定性和模型初始化
4. 多层感知机
4.8. 数值稳定性和模型初始化
到目前为止,我们实现的每个模型都是根据某个预先指定的分布来初始化模型的参数。 你可能认为初始化方案是理所当然的,忽略了如何做出这些选择的细节。 你甚至可能会觉得,初始化方案的选择并不是特别重要。 相反,初始化方案的选择在神经网络学习中起着举足轻重的作用, 它对保持数值稳定性至关重要。 此外,这些初始化方案的选择可以与非线性激活函数的选择有趣的结合在一起。 我们选择哪个函数以及如何初始化参数可以决定优化算法收敛的速度有多快。 糟糕选择可能会导致我们在训练时遇到梯度爆炸或梯度消失。 在本节中,我们将更详细地探讨这些主题,并讨论一些有用的启发式方法。 你会发现这些启发式方法在你的整个深度学习生涯中都很有用。
4.8.1. 梯度消失和梯度爆炸
考虑一个具有 L L
标签:二十二,初始化,梯度,模型,4.8,数值,选择 来源: https://blog.csdn.net/juluwangriyue/article/details/123203900