文章列表 - 一些学习与部分故事

别着急，坐和放宽

关于关于本站关于我关于此项目

更多时间线友链监控

联系写留言发邮件 GitHub

© 2020-2025 莫叶. | RSS | 站点地图 | | Stay hungry. Stay foolish.

Powered by Mix Space&. | 浙 ICP 备 2024104483 号 |

深度学习-李沐-第七节-批量规范化
批量规范化使用原因原理批量规范化层批量规范化和其他层之间的一个关键区别是，由于批量规范化在完整的小批量上运行，因此我们不能像以前在引入其他层时那样忽略批量大小。 ![](...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第七节-深度卷积神经网络（AlexNet）
深度卷积神经网络（AlexNet） AlexNet AlexNet使用8层卷积神经网络 AlexNet比相对较小的LeNet5要深得多。 AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。其次，AlexNet使用ReLU而不是sigmoid作为其激活函数。模型设计在AlexNet的第一层，卷积窗口的形状是11×11。由于ImageNet中大多数图像的宽和高比MNIST图像的多10倍以上，因此，需要一个更大的卷积窗口来捕获目标。第二层中...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第七节-使用块中的网络
使用块中的网络 VGG块经典卷积神经网络的基本组成部分：带填充以保持分辨率的卷积层；非线性激活函数，如ReLU；汇聚层，如最大汇聚层。 VGG块与之类似，由一系列卷积层组成，后面再加上用于空间下采样的最大汇聚层。 `python import torch from torch import nn from d2l import torch as d2l def vgg_block(num_convs, in_channels, out_channels): layers = [] for _ in range(n...
2022 年 8 月 16 日星期二
阅读全文
深度学习-李沐-第十节-注意力评分函数
注意力评分函数使用高斯核来对查询和键之间的关系建模高斯核指数部分视为注意力评分函数（attention scoring function），简称评分函数（scoring function）把这个函数的输出结果输入到softmax函数中进行运算。通过上述步骤，我们将得到与键对应的值的概率分布（即注意力权重）最后，注意力汇聚的输出就是基于这些注意力权重的值的加权和。掩蔽softmax操作 softmax操作用于输出一个概率分布作为注意力权重，在某些情况下，并非所有的值都应该被纳入到注意力汇聚中。为了仅将有意义的词元作为值来获取注意...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第七节-网络中的网络（NiN）
网络中的网络（NiN） LeNet、AlexNet和VGG共同的设计模式：过一系列的卷积层与汇聚层来提取空间结构特征；然后通过全连接层对特征的表征进行处理。AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块网络中的网络（NiN）提供了一个非常简单的解决方案：在每个像素的通道上分别使用多层感知机卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度全连接层的输入和输出通常是分别对应于样本和特征的二维张量 NiN块在每个像素位置（针对每个高度和宽度）应用一个全连接...
2022 年 8 月 16 日星期二
1
阅读全文
深度学习-李沐-第四节-Dropout暂退法
Dropout暂退法暂退法的思想是在隐藏层中丢弃某些单元，以减少模型对某些特征的依赖。删除了h2和h5，因此输出的计算不再依赖于h2或h5，并且它们各⾃的梯度在执⾏反向传播时也会消失。这样，输出层的计算不能过度依赖于h1, . . . , h5的任何⼀个元素。实现神经元的丢弃假设某个神经元被丢弃的概率为p，那么该神经元的输出可以表示为：计算h{}'期望值: ...
2022 年 8 月 16 日星期二
/
1
阅读全文
深度学习-李沐-第四节-数值稳定性与参数初始化
摘要：神经网络中常见的数值稳定性问题包括梯度爆炸和梯度消失。梯度爆炸指梯度过大导致数值问题，梯度消失则是梯度过小无法有效更新参数。解决这些问题的一种方法是通过合适的参数初始化，如使用正态分布或Xavier初始化。参数初始化的关键是确保梯度和参数在训练过程中能够得到有效控制，同时使用启发式的初始化方法可以避免梯度过大或过小的情况。在深度网络中，采用适当的初始化方法可以提高稳定性和加速收敛。
数值稳定性与参数初始化神经网络的梯度数值稳定性常见两个问题梯度爆炸：梯度是一个大于1的数，一百层求梯度之后会是一个很大的数字梯度消失：与上面相反，当梯度小于1的时候…… ![](https://qiniu.kanes.top/blog/e...
2022 年 8 月 16 日星期二(已编辑)
/
2
阅读全文
深度学习-李沐-第四节-前向传播、反向传播
摘要：前向传播和反向传播是深度学习中神经网络训练的重要过程。前向传播是指神经网络从输入层到输出层的计算过程，而反向传播是计算神经网络参数梯度的方法。在前向传播过程中，数据从输入经过各层神经元的计算传播至输出层，计算网络的预测结果。反向传播利用链式法则按相反顺序遍历网络，计算参数梯度以更新模型参数。前向传播和反向传播相互依赖，通过前向传播计算得到隐藏变量的当前值，以便在反向传播中计算参数的梯度。
前向传播、反向传播前向传播前向传播过程，即神经网络从输入层到输出层的计算过程。前向传播过程前向传播反向传播反向传播（backward propagation或backpropagation）指的是计算神经网络参数梯度的方法。该方法根据微积分中的链式规则，按相反的顺序从输出层到输入层遍历网络。该算法**存储了计算某些参数梯度时所需的任何中间变量（偏导数）...
2022 年 8 月 16 日星期二(已编辑)
1
阅读全文
深度学习-李沐-第四节-权重衰退
摘要：权重衰退通过L2正则项控制模型参数的大小，避免过拟合。正则项权重是一个超参数，一般设置在优化器中，通常为0.001。
权重衰退一种常见的处理过拟合的方法。使用均方范数作为硬性限制控制模型容量的两种方式：参数的数量、参数的选择范围。该方法是通过限制参数值的选择范围，来控制模型容量的。 ∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b，小的θ意味着更强的正则项。这种方法很少用，一般转化为下面这种柔性限制。使用均方范数作为柔性限制 ![](https://qiniu.kanes...
2022 年 8 月 16 日星期二(已编辑)
2
阅读全文
深度学习-李沐-第四节-模型选择、⽋拟合和过拟合
模型选择、⽋拟合和过拟合训练误差与泛化误差训练误差(training error)是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时，模型误差的期望。即为模型在新数据上的误差验证数据集和测试数据集验证数据集：一个用于评估模型好坏的数据集测试数据集：只用一次的数据集 ![](https:/...
2022 年 8 月 16 日星期二
1
阅读全文