单发多框检测(SSD)与yolo 通过多尺度特征块,单发多框检测生成不同大小的锚框,并通过预测边界框的类别和偏移量来检测大小不同的目标 yolo 也是一个 single-stage 的算法,只有一个单神经网络来做预测 yolo 也需要锚框,这点和 SSD 相同,但是 SSD 是对每个像素点生成多个锚...
参数服务器-分布式计算 ![]...
多GPU训练 方法 第一种方法,在多个GPU之间拆分网络。 也就是说,每个GPU将流入特定层的数据作为输入,跨多个后续层对数据进行处理,然后将数据发送到下一个GPU。 与单个GPU所能处理的数据相比,我们可以用更大的网络处理数据。 此外,每个GPU占用的显存(memory footprint)可以得到很好的控制,虽然它只是整个网络显存的一小部分。 第二种方法,拆分层内的工作。 例如,将问题分散到4个GPU,每个GPU生成16个通道的数据,而不是在单个GPU上计算64个通道。 对于全连接的层,同样可以拆分输出单元的数量。 第三种方法,跨多个GPU对数据进行拆...
硬件、CPU、GPU 概念 一个处理器(也被称为CPU),它除了能够运行操作系统和许多其他功能之外,还能够执行我们给它的程序,通常由8个或更多个核心组成。 内存(随机访问存储,RAM)用于存储和检索计算结果,如权重向量和激活参数,以及训练数据。 一个或多个以太网连接,速度从1GB/s到100GB/s不等。在高端服务器上可能用到更高级的互连。 高速扩展总线(PCIe)用于系统连接一个或多个GPU。服务器最多有个加速卡,通常以更高级的拓扑方式连接,而桌面系统则有个或个加速卡,具体取决于用户的预算和电源负载的大小。 持久性存储设备,如磁盘驱动器、固...
语言模型和数据集 语言模型 用途: 预测文本出现的概率 生成文本 判断哪个序列更常见 小结 语言模型是自然语言处理的关键。 n元语法通过截断相关性,为处理长序列提供了一种实用的模型。 长序列存在一个问题:它们很少出现或者从不出现。 齐普夫定律支配...
Transformer transformer模型完全基于注意力机制,没有任何卷积层或循环神经网络层,transformer最初是应用于在文本数据上的序列到序列学习,但现在已经推广到各种现代的深度学习中,例如语言、视觉、语音和强化学习领域。 模型架构 transformer的编码器和解码器是基于自注意力的模块叠加而成的,源(输入)序列和目标(输出)序列的嵌入(embedding)表示将加上位置编码(positional encoding),再分别输入到编码器和解码器中。 从宏观...
Bahdanau注意力 一个没有严格单向对齐限制的可微注意力模型。在预测词元时,如果不是所有输入词元都相关,模型将仅对齐(或参与)输入序列中与当前预测相关的部分。这是通过将上下文变量视为注意力集中的输出来实现的。 模型 定义注意力解码器 以下AttentionDecoder类定义了带有注意力机制解码器的基本接口。 #@save class AttentionDecoder(d2l.Decoder): """带有注意力机制解码器的基本接口"...
自身位置和注意力编码 有了注意力机制之后,我们将词元序列输入注意力池化中, 以便同一组词元同时充当查询、键和值。 具体来说,每个查询都会关注所有的键-值对并生成一个注意力输出。 由于查询、键和值来自同一组输入,因此被称为 自注意力(self-attention)也被称为内部注意力(intra-attention) 自注意力 比较卷积神经网络、循环神经网络和自注意力 让我们比较下面几个架构,目标都是将由n个词元组成的序列映射到另一个长度相等的序列,其中的每个输入词元或输出词...
注意力提示 生物学中的注意力提示 非自主性提示和自主性提示 非自主性提示是基于环境中物体的突出性和易见性。 想象一下,假如你面前有五个物品: 一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本书, 所有纸制品都是黑白印刷的,但咖啡杯是红色的。 换句话说,这个咖啡杯在这种视觉环境中是突出和显眼的, 不由自主地引起人们的注意。 所以你把视力最敏锐的地方放到咖啡上。 喝咖啡后,你会变得兴奋并想读书。 所以你转过头,重新聚焦你的眼睛,然后看看书,由于突出性导致的...
锚框 以每个像素为中心,生成多个缩放比和宽高比(aspect ratio)不同的边界框。 这些边界框被称为锚框(anchor box) 生成多个锚框 指定输入图像、尺寸列表和宽高比列表,然后此函数将返回所有的锚框 #@save def multibox_prior(data, sizes, ratios): """生成以每个像素为中心具有不同形状的锚框""" ...