深度学习-李沐-第九节-长短期记忆网络(LSTM)

2022 年 8 月 16 日 星期二

深度学习-李沐-第九节-长短期记忆网络(LSTM)

长短期记忆网络(LSTM)

长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

门控记忆元

  • 为了控制记忆元,我们需要许多门。
  • 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate)
  • 一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate)
  • 一种机制来重置单元的内容,由遗忘门(forget gate)来管理。将值向0减少

LSTM结构

小结

  • 长短期记忆网络有三种类型的门:输入门、遗忘门和输出门。
  • 长短期记忆网络的隐藏层输出包括“隐状态”和“记忆元”。只有隐状态会传递到输出层,而记忆元完全属于内部信息。
  • 长短期记忆网络可以缓解梯度消失和梯度爆炸。
  • Loading...
  • Loading...
  • Loading...
  • Loading...
  • Loading...