其他分享
首页 > 其他分享> > Lecture 7: Vanishing Gradients and Fancy RNNs

Lecture 7: Vanishing Gradients and Fancy RNNs

作者:互联网

在这里插入图片描述

文章目录

梯度消失直觉

在这里插入图片描述
当求J(4)(θ)J^{(4)}(\theta)J(4)(θ)关于h(1)h^{(1)}h(1)的梯度时,使用链导法则,可得到图中的式子,若每一个乘数都很小,最终求得的梯度将会随着反向传播越远而变得越小。

具体的推导

首先h(t)h^{(t)}h(t)的计算公式如下
在这里插入图片描述
所以使用链式法则可以得到
在这里插入图片描述
考虑时间步 t的lossJ(i)(θ)J^{(i)}(\theta)J(i)(θ)关于隐藏层输出h(j)h^{(j)}h(j)的梯度,j是i之前的某一时间步
在这里插入图片描述
如果式中的WhW_hWh​很小,那么当i和j离得更远时,Wh(ij)W^{(i-j)}_hWh(i−j)​就变小了
考虑矩阵L2范数
在这里插入图片描述
Pascanu等人指出,如果WhW_hWh​的最大特征值(largest eigenvalue)小于1,那么梯度J(i)(]theta)h(j)||\frac{\partial J^{(i)}(]theta)}{\partial h^{(j)}}||∣∣∂h(j)∂J(i)(]theta)​∣∣ 将指数收缩。

当最大特征值大于1时,会导致梯度爆炸

Why is vanishing gradient a problem?

在这里插入图片描述
因为远处的梯度信号比近处的梯度信号小得多,所以将会丢失
因此,模型权重仅针对近期效应而非长期效进行更新。
另一个解释是:梯度可以看作是过去对未来影响的一种衡量
如果在更长的距离内(步骤t到步骤t+n),梯度变小,那么我们无法判断:

Effect of vanishing gradient on RNN-LM
在这里插入图片描述
为了学习这个例子,RNN-LM需要对第7时间步的"between"和最后的目标单词"ticket"之间的依赖关系进行建模
但如果梯度很小,模型就无法学习到这样的依赖关系,因此,在测试时,这个模型也就无法预测相似长距离的依赖。
在这里插入图片描述
Correct answer: The writer of the books is planning a sequel
在这里插入图片描述
由于梯度消失,RNN-LMs比句法近因更善于从顺序近因中学习,因此他们比我们认为的更经常地犯这种错误[Linzen et al 2016]

Why is exploding gradient a problem?

如果梯度太大,那么SGD每次更新都会太大
在这里插入图片描述

Gradient clipping: solution for exploding gradient

Gradient clipping:如果梯度的范数大于某个阈值,则在应用SGD更新之前将其缩小
在这里插入图片描述
作用可视化后如下图所示
在这里插入图片描述

How to fix vanishing gradient problem?

主要问题是RNN很难学会在多个时间段内保存信息。
在普通RNN中,隐藏层不断被重写
在这里插入图片描述
如果将记忆信息单独分出来会如何?

Long Short-Term Memory (LSTM)

在这里插入图片描述
可以将LSTM可视化成下图
在这里插入图片描述
在这里插入图片描述

How does LSTM solve vanishing gradients?

LSTMs: real-world success

GRU

在这里插入图片描述
一个LSTM的简化版:去掉了显式的记忆单元

LSTM vs GRU

Is vanishing/exploding gradient just a RNN problem?

Bidirectional RNNs

在这里插入图片描述
motivation:在单向的RNN中,每一个时间步只包含左边的信息,而对右边的信息一无所知,而在某些任务中,这直接会影响正确性。比如在上图的情感分类任务中,获得"terribly"的隐藏层表示时,只有左边的信息,其本身带有消极的意思,那么获得的隐藏层表示可能为最终结果贡献了消极的意思。但根据整个句子来看,明显此处是积极的含义。这就说明,获得一个词的表示时,右边的上下文信息也很重要。由此引出了双向RNN
在这里插入图片描述
双向RNN包括正向和反向,在时间步t的隐藏层状态将正向和反向获得的隐藏层状态拼接起来即可。此外,正向和反向的权重矩阵不同。
在这里插入图片描述
简化图示如下
在这里插入图片描述
注:

Multi-layer RNNs

总结

在这里插入图片描述

24kb_ 发布了24 篇原创文章 · 获赞 10 · 访问量 6507 私信 关注

标签:RNN,gradient,梯度,vanishing,Vanishing,Lecture,LSTM,Gradients,problem
来源: https://blog.csdn.net/weixin_42017042/article/details/104152073