摘要: 权重衰退通过L2正则项控制模型参数的大小,避免过拟合。正则项权重是一个超参数,一般设置在优化器中,通常为0.001。
权重衰退 一种常见的处理过拟合的方法。 使用均方范数作为硬性限制 控制模型容量的两种方式:参数的数量、参数的选择范围。 该方法是通过限制参数值的选择范围,来控制模型容量的。 ∥w∥^2 代表权重中每一项的平方和。通常不限制偏移b,小的θ意味着更强的正则项。这种方法很少用,一般转化为下面这种柔性限制。 使用均方范数作为柔性限制 是指模型在训练数据集上计算得到的误差。即为模型在训练数据上的误差 泛化误差(generalization error)是指模型应用在同样从原始样本的分布中抽取的无限多数据样本时,模型误差的期望。即为模型在新数据上的误差 验证数据集和测试数据集 验证数据集:一个用于评估模型好坏的数据集 测试数据集:只用一次的数据集 是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。 y = w1x1 + w2x2 + w3x3 + b 损失评估 梯度下降 , 简称评分函数(scoring function) 把这个函数的输出结果输入到softmax函数中进行运算。 通过上述步骤,我们将得到与键对应的值的概率分布(即注意力权重) 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。 掩蔽softmax操作 softmax操作用于输出一个概率分布作为注意力权重,在某些情况下,并非所有的值都应该被纳入到注意力汇聚中。 为了仅将有意义的词元作为值来获取注意...
线性回归 难点、疑点 梯度下降 线性回归的代码实现 定义 回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。 y = w1x1 + w2x2 + w3x3 + b 损失评估 梯度下降  定义两个标量与标量的运算 向量 将向量视为标量值组成的列表。标量的值称为向量的元素(element)或分量(component)。 例如: x = torch.arange(4) ⻓度、维度和形状 向量只是⼀个数字数组,就像每个数组都有⼀个⻓度⼀样,每个向量也是如此。向量的⻓度通常称为向量维度(dimension)。 len(x)输出向量长度,`x.s...
摘要: n维数组,也称为张量(tensor),在深度学习框架中被广泛应用。张量支持GPU加速计算和自动微分,相较于NumPy的ndarray更适合深度学习任务。数据操作包括创造张量、运算符、张量连结与比较、广播机制与切片索引以及节省内存与转换对象。数据预处理包括读取数据集、处理缺失值(使用fillna()填充缺失值和利用get_dummies函数处理离散值)以及转换为张量格式。
数据操作及数据预处理 定义 n维数组,也称为张量(tensor)。张量类(在MXNet中为ndarray,在PyTorch和TensorFlow中为Tensor) 都与Numpy的ndarray类似。但深度学习框架⼜⽐Numpy的ndarray多⼀些重要功能:⾸先,GPU很好地⽀持加速计算,⽽NumPy仅⽀持CPU计算;其次,张量类⽀持⾃动微分。这些功能使得张量类更适合深度学习。 数据操作 创造张量 x = torch.arange(12) print(x) print(x.shape) print(x.numel()) ...
感知机 单层感知机 什么是感知机 感知机为二分类,非黑即白 softmax多分类,输出可能为某类别的概率 感知机训练算法 这里的判断负负得正、正正得正。得正说明训练正常。同时也引出了异或的问题 收敛定理 异或问题 ![](https:/...