束搜索 逐个预测输出序列, 直到预测序列中出现特定的序列结束词元“” 小结 序列搜索策略包括贪心搜索、穷举搜索和束搜索。 贪心搜索所选取序列的计算量最小,但精度相对较低。 穷举搜索...
门控循环单元(GRU) GRU(Gate Recurrent Unit)是循环神经网络(Recurrent Neural Network, RNN)的一种。 GRU输入输出结构 GRU的输入输出结构与普通的RNN是一样的。 GRU的内部结构 首先,我们先通过上一个传输下来的状态 h( t-1) 和当前节点的输入xt来获取两个门控状态。 其中 r 控制重置的门控(reset g...
编码器-解码器结构 机器翻译是序列转换模型的一个核心问题, 其输入和输出都是长度可变的序列。 为了处理这种类型的输入和输出, 我们可以设计一个包含两个主要组件的架构: 第一个组件是一个编码器(encoder): 它接受一个长度可变的序列作为输入, 并将其转换为具有固定形状的编码状态。 第二个组件是解码器(decoder): 它将固定形状的编码状态映射到长度可变的序列。 架构 代码实现 `python from torch import nn 在编码器接口中,我们...
循环神经网络 输出发生在观察之前 预测输出 n次交叉熵的平均值 语言模型本质是分类模型 判断下一个词是词典中的类别 困惑度对平均交叉熵做个指数 ![](https://qiniu.kanes.top/b...
序列模型 输入或者输出中包含有序列数据的模型叫做序列模型。 语音识别: 输入输出都为序列。 音乐生成: 输出为序列。 情感分析:输入为序列。 DNA序列分析:输入为序列。 机器翻译:输入输出都为序列。 视频行为识别:输入为序列。 命名实体识别:输入输出都为序列。 序列数据举例 统计工具 ![](https://qiniu.kanes.to...