其他分享
首页 > 其他分享> > 动手学深度学习 | 长短期记忆网络(LSTM)| 57

动手学深度学习 | 长短期记忆网络(LSTM)| 57

作者:互联网

目录

长短期记忆网络 LSTM

90年代发明的网络,其实挺复杂的,就现在其实大家也没有搞明白为什么要这么设计。

LSTM虽然是长得挺奇怪的,但是使用效果还是不错的,尽管是90年年代发明的网络。

LSTM其实要实现的效果和GRU是差不多的,只不过设计相对复杂一些。

GRU可以认为是对LSTM的一个简化?

但是目前来说,其实GRU和LSTM的性能表现是差不多的,说以其实选择哪个都是可以的。

代码

QA

  1. 为什么要对输出取tanh?

把输出的值控制在[0,1],有一个很重要的作用就是防止梯度爆炸。

  1. 如何计算一个模型占用的显存?以及一个batch占用的显存?

这个东西是很难的,这个要取决于你的框架优化的有多好。一般是很难准确估计的,要实际跑一下才能知道。

标签:显存,GRU,57,长短期,网络,LSTM,其实
来源: https://www.cnblogs.com/Rowry/p/15375403.html