使用块中的网络 VGG块 经典卷积神经网络的基本组成部分: 带填充以保持分辨率的卷积层; 非线性激活函数,如ReLU; 汇聚层,如最大汇聚层。 VGG块与之类似,由一系列卷积层组成,后面再加上用于空间下采样的最大汇聚层。 import torch from torch import nn from d2l import torch as d2l def vgg_block(num_convs, in_channels, out_channels): layers = [] for _ in range(n...
注意力评分函数 使用高斯核来对查询和键之间的关系建模 高斯核指数部分视为注意力评分函数(attention scoring function), 简称评分函数(scoring function) 把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,我们将得到与键对应的值的概率分布(即注意力权重) 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。 掩蔽softmax操作 softmax操作用于输出一个概率分布作为注意力权重,在某些情况下,并非所有的值都应该被纳入到注意力汇聚中。 为了仅将有意义的词元作为值来获取注意...
网络中的网络(NiN) LeNet、AlexNet和VGG共同的设计模式:过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机 卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度 全连接层的输入和输出通常是分别对应于样本和特征的二维张量 NiN块 在每个像素位置(针对每个高度和宽度)应用一个全连接...
Dropout暂退法 暂退法的思想是在隐藏层中丢弃某些单元,以减少模型对某些特征的依赖。 删除了h2和h5,因此输出的计算不再依赖于h2或h5,并且它们各⾃的梯度在执⾏反向传播时也会消失。这样,输出层的计算不能过度依赖于h1, . . . , h5的任何⼀个元素。 实现神经元的丢弃 假设某个神经元被丢弃的概率为p,那么该神经元的输出可以表示为: 计算h{}'期望值: ...
摘要: 神经网络中常见的数值稳定性问题包括梯度爆炸和梯度消失。梯度爆炸指梯度过大导致数值问题,梯度消失则是梯度过小无法有效更新参数。解决这些问题的一种方法是通过合适的参数初始化,如使用正态分布或Xavier初始化。参数初始化的关键是确保梯度和参数在训练过程中能够得到有效控制,同时使用启发式的初始化方法可以避免梯度过大或过小的情况。在深度网络中,采用适当的初始化方法可以提高稳定性和加速收敛。
数值稳定性与参数初始化 神经网络的梯度 数值稳定性常见两个问题 梯度爆炸:梯度是一个大于1的数,一百层求梯度之后会是一个很大的数字 梯度消失:与上面相反,当梯度小于1的时候…… 指的是计算神经网络参数梯度的方法。 该方法根据微积分中的链式规则,按相反的顺序从输出层到输入层遍历网络。 该算法**存储了计算某些参数梯度时所需的任何中间变量(偏导数)...
摘要: 权重衰退通过L2正则项控制模型参数的大小,避免过拟合。正则项权重是一个超参数,一般设置在优化器中,通常为0.001。
权重衰退 一种常见的处理过拟合的方法。 使用均方范数作为硬性限制 控制模型容量的两种方式:参数的数量、参数的选择范围。 该方法是通过限制参数值的选择范围,来控制模型容量的。 ∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b,小的θ意味着更强的正则项。这种方法很少用,一般转化为下面这种柔性限制。 使用均方范数作为柔性限制 是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差 泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。即为模型在新数据上的误差 验证数据集和测试数据集 验证数据集:一个用于评估模型好坏的数据集 测试数据集:只用一次的数据集 是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。 y = w1x1 + w2x2 + w3x3 + b 损失评估 梯度下降 ![](https://qiniu.kanes.top/blog...