深度学习-李沐-第十节-注意力汇聚:Nadaraya-Watson核回归
注意力汇聚:Nadaraya-Watson核回归 注意力机制的主要成分:查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚, 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 生成数据集 n_train = 50 # 训练样本数 x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本 def f(x): return 2 * torch.sin(x) + x**0....
深度学习-李沐-第九节-长短期记忆网络(LSTM)
长短期记忆网络(LSTM) 长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 门控记忆元 为了控制记忆元,我们需要许多门。 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate) 一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate) 一种机制来重置单元的内容,由遗忘门(forget gate)来管理。将值向0减少 LSTM结构 ![...
深度学习-李沐-第九节-序列到序列学习(seq2seq)
序列到序列学习(seq2seq) 循环神经网络编码器使用长度可变的序列作为输入, 将其转换为固定形状的隐状态。 为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息 和输出序列已经看见的或者生成的词元来预测下一个词元。 为了采用一个接着一个词元的方式预...
深度学习-李沐-第九节-束搜索
束搜索 逐个预测输出序列, 直到预测序列中出现特定的序列结束词元“” 小结 序列搜索策略包括贪心搜索、穷举搜索和束搜索。 贪心搜索所选取序列的计算量最小,但精度相对较低。 穷举搜索...
深度学习-李沐-第九节-门控循环单元(GRU)
门控循环单元(GRU) GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。 GRU输入输出结构 GRU的输入输出结构与普通的RNN是一样的。 GRU的内部结构 首先,我们先通过上一个传输下来的状态 h( t-1) 和当前节点的输入xt来获取两个门控状态。 其中 r 控制重置的门控(reset g...
深度学习-李沐-第九节-编码器-解码器结构
编码器-解码器结构 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 架构 代码实现 from torch import nn 在编码器接口中,我们...
深度学习-李沐-第八节-循环神经网络
循环神经网络 输出发生在观察之前 预测输出 n次交叉熵的平均值 语言模型本质是分类模型 判断下一个词是词典中的类别 困惑度对平均交叉熵做个指数 ![](https://qiniu.kanes.top/b...
深度学习-李沐-第八节-序列模型
序列模型 输入或者输出中包含有序列数据的模型叫做序列模型。 语音识别: 输入输出都为序列。 音乐生成: 输出为序列。 情感分析:输入为序列。 DNA序列分析:输入为序列。 机器翻译:输入输出都为序列。 视频行为识别:输入为序列。 命名实体识别:输入输出都为序列。 序列数据举例 统计工具 ![](https://qiniu.kanes.to...