硬件、CPU、GPU 概念 一个处理器(也被称为CPU),它除了能够运行操作系统和许多其他功能之外,还能够执行我们给它的程序,通常由8个或更多个核心组成。 内存(随机访问存储,RAM)用于存储和检索计算结果,如权重向量和激活参数,以及训练数据。 一个或多个以太网连接,速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连。 高速扩展总线(PCIe)用于系统连接一个或多个GPU。服务器最多有个加速卡,通常以更高级的拓扑方式连接,而桌面系统则有个或个加速卡,具体取决于用户的预算和电源负载的大小。 持久性存储设备,如磁盘驱动器、固...
语言模型和数据集 语言模型 用途: 预测文本出现的概率 生成文本 判断哪个序列更常见 小结 语言模型是自然语言处理的关键。 n元语法通过截断相关性,为处理长序列提供了一种实用的模型。 长序列存在一个问题:它们很少出现或者从不出现。 齐普夫定律支配...
Transformer transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层,transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。 模型架构 transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码(positional encoding),再分别输入到编码器和解码器中。 从宏观...
Bahdanau注意力 一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。 模型 定义注意力解码器 以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。 `python #@save class AttentionDecoder(d2l.Decoder): """带有注意力机制解码器的基本接口"...
自身位置和注意力编码 有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention)也被称为内部注意力(intra-attention) 自注意力 比较卷积神经网络、循环神经网络和自注意力 让我们比较下面几个架构,目标都是将由n个词元组成的序列映射到另一个长度相等的序列,其中的每个输入词元或输出词...
注意力提示 生物学中的注意力提示 非自主性提示和自主性提示 非自主性提示是基于环境中物体的突出性和易见性。 想象一下,假如你面前有五个物品: 一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书, 所有纸制品都是黑白印刷的,但咖啡杯是红色的。 换句话说,这个咖啡杯在这种视觉环境中是突出和显眼的, 不由自主地引起人们的注意。 所以你把视力最敏锐的地方放到咖啡上。 喝咖啡后,你会变得兴奋并想读书。 所以你转过头,重新聚焦你的眼睛,然后看看书,由于突出性导致的...
转置卷积 在空间维度被卷积神经网络层缩小后,可以使用转置卷积用于逆转下采样导致的空间尺寸减小。 基本操作 填充、步幅和多通道 与矩阵变换的联系 小结 与通过卷积核减少输入元素的常规卷积相反,转置卷积通过卷积核广播输入元素,从而产生形状大于输入的输出。 !...
注意力汇聚:Nadaraya-Watson核回归 注意力机制的主要成分:查询(自主提示)和键(非自主提示)之间的交互形成了注意力汇聚, 注意力汇聚有选择地聚合了值(感官输入)以生成最终的输出。 生成数据集 `python n_train = 50 # 训练样本数 x_train, _ = torch.sort(torch.rand(n_train) * 5) # 排序后的训练样本 def f(x): return 2 * torch.sin(x) + x**0....
长短期记忆网络(LSTM) 长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 门控记忆元 为了控制记忆元,我们需要许多门。 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate) 一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate) 一种机制来重置单元的内容,由遗忘门(forget gate)来管理。将值向0减少 LSTM结构 ![...
序列到序列学习(seq2seq) 循环神经网络编码器使用长度可变的序列作为输入, 将其转换为固定形状的隐状态。 为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息 和输出序列已经看见的或者生成的词元来预测下一个词元。 为了采用一个接着一个词元的方式预...