文章列表 - 笑招日记

深度学习-李沐-第十节-注意力汇聚：Nadaraya-Watson核回归
注意力汇聚：Nadaraya-Watson核回归注意力机制的主要成分：查询（自主提示）和键（非自主提示）之间的交互形成了注意力汇聚，注意力汇聚有选择地聚合了值（感官输入）以生成最终的输出。生成数据集 n_train = 50 # 训练样本数 x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本 def f(x): return 2 * torch.sin(x) + x**0....
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第九节-长短期记忆网络（LSTM）
长短期记忆网络（LSTM）长短期存储器（long short-term memory，LSTM）是一种特殊的RNN，主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说，就是相比普通的RNN，LSTM能够在更长的序列中有更好的表现。门控记忆元为了控制记忆元，我们需要许多门。其中一个门用来从单元中输出条目，我们将其称为输出门（output gate）一个门用来决定何时将数据读入单元，我们将其称为输入门（input gate）一种机制来重置单元的内容，由遗忘门（forget gate）来管理。将值向0减少 LSTM结构 ![...
2022 年 8 月 16 日星期二
阅读全文
深度学习-李沐-第九节-序列到序列学习（seq2seq）
序列到序列学习（seq2seq）循环神经网络编码器使用长度可变的序列作为输入，将其转换为固定形状的隐状态。为了连续生成输出序列的词元，独立的循环神经网络解码器是基于输入序列的编码信息和输出序列已经看见的或者生成的词元来预测下一个词元。为了采用一个接着一个词元的方式预...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第九节-束搜索
束搜索逐个预测输出序列，直到预测序列中出现特定的序列结束词元“” 小结序列搜索策略包括贪心搜索、穷举搜索和束搜索。贪心搜索所选取序列的计算量最小，但精度相对较低。穷举搜索...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第九节-门控循环单元（GRU）
门控循环单元（GRU） GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。 GRU输入输出结构 GRU的输入输出结构与普通的RNN是一样的。 GRU的内部结构首先，我们先通过上一个传输下来的状态 h( t-1) 和当前节点的输入xt来获取两个门控状态。其中 r 控制重置的门控（reset g...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第九节-编码器-解码器结构
编码器-解码器结构机器翻译是序列转换模型的一个核心问题，其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出，我们可以设计一个包含两个主要组件的架构：第一个组件是一个编码器（encoder）：它接受一个长度可变的序列作为输入，并将其转换为具有固定形状的编码状态。第二个组件是解码器（decoder）：它将固定形状的编码状态映射到长度可变的序列。架构代码实现 from torch import nn 在编码器接口中，我们...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第八节-循环神经网络
循环神经网络输出发生在观察之前预测输出 n次交叉熵的平均值语言模型本质是分类模型判断下一个词是词典中的类别困惑度对平均交叉熵做个指数 ![](https://qiniu.kanes.top/b...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第八节-序列模型
序列模型输入或者输出中包含有序列数据的模型叫做序列模型。语音识别：输入输出都为序列。音乐生成：输出为序列。情感分析：输入为序列。 DNA序列分析：输入为序列。机器翻译：输入输出都为序列。视频行为识别：输入为序列。命名实体识别：输入输出都为序列。序列数据举例统计工具 ![](https://qiniu.kanes.to...
2022 年 8 月 16 日星期二
2
阅读全文