深度学习-李沐-第七节-使用块中的网络
使用块中的网络 VGG块 经典卷积神经网络的基本组成部分: 带填充以保持分辨率的卷积层; 非线性激活函数,如ReLU; 汇聚层,如最大汇聚层。 VGG块与之类似,由一系列卷积层组成,后面再加上用于空间下采样的最大汇聚层。 import torch from torch import nn from d2l import torch as d2l def vgg_block(num_convs, in_channels, out_channels): layers = [] for _ in range(n...
深度学习-李沐-第七节-网络中的网络(NiN)
网络中的网络(NiN) LeNet、AlexNet和VGG共同的设计模式:过一系列的卷积层与汇聚层来提取空间结构特征;然后通过全连接层对特征的表征进行处理。AlexNet和VGG对LeNet的改进主要在于如何扩大和加深这两个模块 网络中的网络(NiN)提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机 卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度 全连接层的输入和输出通常是分别对应于样本和特征的二维张量 NiN块 在每个像素位置(针对每个高度和宽度)应用一个全连接...
深度学习-李沐-第八节-语言模型和数据集
语言模型和数据集 语言模型 用途: 预测文本出现的概率 生成文本 判断哪个序列更常见 小结 语言模型是自然语言处理的关键。 n元语法通过截断相关性,为处理长序列提供了一种实用的模型。 长序列存在一个问题:它们很少出现或者从不出现。 齐普夫定律支配...
深度学习-李沐-第八节-序列模型
序列模型 输入或者输出中包含有序列数据的模型叫做序列模型。 语音识别: 输入输出都为序列。 音乐生成: 输出为序列。 情感分析:输入为序列。 DNA序列分析:输入为序列。 机器翻译:输入输出都为序列。 视频行为识别:输入为序列。 命名实体识别:输入输出都为序列。 序列数据举例 统计工具 ![](https://qiniu.kanes.to...
深度学习-李沐-第八节-循环神经网络
循环神经网络 输出发生在观察之前 预测输出 n次交叉熵的平均值 语言模型本质是分类模型 判断下一个词是词典中的类别 困惑度对平均交叉熵做个指数 ![](https://qiniu.kanes.top/b...
深度学习-李沐-第九节-编码器-解码器结构
编码器-解码器结构 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 架构 代码实现 from torch import nn 在编码器接口中,我们...
深度学习-李沐-第九节-门控循环单元(GRU)
门控循环单元(GRU) GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。 GRU输入输出结构 GRU的输入输出结构与普通的RNN是一样的。 GRU的内部结构 首先,我们先通过上一个传输下来的状态 h( t-1) 和当前节点的输入xt来获取两个门控状态。 其中 r 控制重置的门控(reset g...
深度学习-李沐-第九节-束搜索
束搜索 逐个预测输出序列, 直到预测序列中出现特定的序列结束词元“” 小结 序列搜索策略包括贪心搜索、穷举搜索和束搜索。 贪心搜索所选取序列的计算量最小,但精度相对较低。 穷举搜索...
深度学习-李沐-第九节-序列到序列学习(seq2seq)
序列到序列学习(seq2seq) 循环神经网络编码器使用长度可变的序列作为输入, 将其转换为固定形状的隐状态。 为了连续生成输出序列的词元, 独立的循环神经网络解码器是基于输入序列的编码信息 和输出序列已经看见的或者生成的词元来预测下一个词元。 为了采用一个接着一个词元的方式预...
深度学习-李沐-第九节-长短期记忆网络(LSTM)
长短期记忆网络(LSTM) 长短期存储器(long short-term memory,LSTM) 是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。 门控记忆元 为了控制记忆元,我们需要许多门。 其中一个门用来从单元中输出条目,我们将其称为输出门(output gate) 一个门用来决定何时将数据读入单元,我们将其称为输入门(input gate) 一种机制来重置单元的内容,由遗忘门(forget gate)来管理。将值向0减少 LSTM结构 ![...