当前位置: 首页> 健康> 养生 > 动漫设计哪个大学好_湛江网站定制_杭州seo建站_哪些网站可以发广告

动漫设计哪个大学好_湛江网站定制_杭州seo建站_哪些网站可以发广告

时间:2025/7/12 9:53:46来源:https://blog.csdn.net/tongxianchao/article/details/147500574 浏览次数:0次
动漫设计哪个大学好_湛江网站定制_杭州seo建站_哪些网站可以发广告

Paying More Attention to Attention: Improving the Performance of Convolutional Neural Networks via Attention Transfer

ABSTRACT

注意力在人类视觉体验中起着关键作用。近期研究表明,注意力机制在人工神经网络应用于计算机视觉和自然语言处理(NLP)等领域的多种任务时同样至关重要。本工作中,我们证明:通过合理定义卷积神经网络(CNN)的注意力,可以强制学生CNN模仿强大教师网络的注意力图(attention maps),从而显著提升其性能。为此,我们提出了几种新颖的注意力迁移方法,在多种数据集和CNN架构上均实现了稳定改进。实验代码和模型已开源:https://github.com/szagoruyko/attention-transfer。

1 INTRODUCTION

人类需要通过注意力机制才能有效感知周围环境。注意力是视觉体验的核心,与感知紧密关联——我们依赖注意力构建兼具细节与一致性的视觉表征。近年来,随着人工神经网络在计算机视觉和自然语言处理领域的普及,人工注意力机制也逐渐发展。这种机制使系统能够“聚焦”于特定对象以进行精细分析,同时也成为理解神经网络内部机理的研究工具(类似心理学中的注意力研究)。当前主流假说认为,感知过程分为非注意力驱动注意力驱动两类:非注意力过程帮助整体观察场景并获取高层信息,结合其他认知过程后引导注意力分配至场景特定区域。这意味着,不同知识背景与目标的观察者会采用不同的注意力策略,从而对同一场景产生差异化感知。这引出了本文的核心议题:人工视觉系统中的注意力如何差异化?能否利用注意力信息提升卷积神经网络性能?更具体地说,教师网络能否通过提供其注意力分布信息(即“关注区域”)来改进学生网络的性能?

为研究这些问题,需首先明确定义卷积神经网络中的注意力。本文中,我们将注意力视为一组空间映射图(spatial maps),用于编码网络在输出决策(如图像分类)时最关注的输入空间区域。这些映射图可针对网络不同层生成,从而捕获低、中、高层表征信息。具体而言,我们定义了两类空间注意力图:基于激活的注意力(activation-based)与基于梯度的注意力(gradient-based)。我们探究了这两类注意力图在不同数据集和架构下的变化规律,证明它们蕴含可显著提升各类CNN性能的有价值信息。为此,我们提出了多种将注意力从强教师网络迁移至小型学生网络的新方法(图1),以提升后者性能。

(a) 一张输入图像及其对应的卷积网络的空间注意力图,该图展示了网络为了对给定图像进行分类所关注的区域。毫无疑问,这种类型的图一定包含了关于网络的有价值信息。我们在本文中提出的问题是:我们能否利用这种类型的知识来改进卷积神经网络(CNN)模型的训练?

(b) 注意力转移的示意图:一个学生CNN被训练不仅要做出良好的预测,还要使其空间注意力图与已经训练好的教师CNN的空间注意力图相似。

本文的贡献可总结如下:
• 提出将注意力作为网络间知识迁移的机制
• 联合利用基于激活和基于梯度的空间注意力图
• 实验表明该方法在多种数据集和深度架构(含残差/非残差网络)上均带来显著提升
• 证明基于注意力的迁移效果优于全特征迁移,且可与知识蒸馏结合

论文结构如下:第2节介绍相关工作,第3节阐述基于激活和梯度的注意力迁移方法,第4节展示两类方法的实验结果,第5节总结全文。

2 RELATED WORK

早期基于注意力的追踪研究(Larochelle & Hinton, 2010; Denil et al., 2012)受人类注意力机制理论(Rensink, 2000)启发,采用受限玻尔兹曼机实现。近年来,注意力机制被适配至循环神经网络的机器翻译任务(如Bahdanau et al., 2014)及其他自然语言处理任务,并在计算机视觉领域得到广泛应用,如图像描述生成(Xu et al., 2015)、视觉问答(Yang et al., 2015)、弱监督目标定位(Oquab et al., 2015)和分类(Mnih et al., 2014)等。这些任务均证明了注意力的有效性。

卷积神经网络中的注意力图可视化仍是一个开放性问题。最简单的方法是计算网络输出对输入的雅可比矩阵(Simonyan et al., 2014),但此类梯度注意力缺乏类别区分性。Zeiler & Fergus (2014) 提出“反卷积网络”方法,通过共享权重的反向网络将特征投射至图像平面。后续研究改进了梯度注意力,如引导反向传播(guided backpropagation, Springenberg et al., 2015),通过修改ReLU层的梯度计算增强可视化效果,但仍无法区分类别。现有方法还包括类别激活图(CAM, Zhou et al., 2016),通过移除全局平均池化层并将分类层转为卷积层,生成类别特定的注意力图。Selvaraju et al. (2016) 提出的Grad-CAM结合了引导反向传播与CAM,在类别区分性注意力图中保留细节。

神经网络的知识蒸馏由Hinton et al. (2015) 和Bucila et al. (2006) 开创,旨在通过教师网络提升学生网络的训练效果。尽管某些情况下浅层网络可无损逼近深层网络(Lei & Caruana, 2014),但后续研究多基于“更深网络表征能力更强”的假设。例如,FitNets(Romero et al., 2014)尝试用参数量更大的浅层网络训练窄而深的网络。随着高速公路网络(Srivastava et al., 2015)和残差网络(He et al., 2015)的出现,极深架构的高精度训练成为可能,其泛化性在多数据集上得到验证。尽管残差网络的初衷是增加深度,但Zagoruyko & Komodakis (2016) 发现,超过一定深度后,性能提升主要源于参数量的增加(例如,16层宽残差网络与1000层窄网络的表征能力相当,前提是参数量相近)。

基于上述发现,且窄深网络的并行性劣于宽网络,我们认为需重新审视知识迁移方向——与FitNets相反,我们尝试训练更浅的学生网络。本文使用的注意力图与前述梯度/激活注意力类似,其作用类似于FitNets中的“提示”,但无需引入额外参数。

3 ATTENTION TRANSFER

在本节中,我们解释了用于定义卷积神经网络空间注意力图的两种方法,以及在每种情况下如何将注意力信息从教师网络传递到学生网络。

3.1 ACTIVATION - BASED ATTENTION TRANSFER

考虑一个CNN层及其对应的激活张量 (包含C个空间尺寸为H×W的特征平面)。基于激活的映射函数F(针对该层)以该三维张量为输入,输出一个空间注意力图,即展平的二维空间张量:

定义此类空间注意力映射函数时,本文的隐含假设是:网络在给定输入下隐藏神经元激活的绝对值,可反映该神经元对当前输入的重要性。因此,通过计算张量A元素的绝对值并沿通道维度统计,可构建空间注意力图(见图3)。具体而言,本研究采用以下基于激活的空间注意力图:

图4:不同ImageNet网络的激活注意力图对比:Network-In-Network(Top-1验证集准确率62%)、ResNet-34(73%)、ResNet-101(77.3%)。左侧展示中层激活注意力图,右侧展示顶层softmax前的激活注意力图。

我们在多个数据集(包括ImageNet分类与定位、COCO目标检测、人脸识别和细粒度识别)上可视化了不同网络的激活特征。研究主要聚焦于无顶层全连接层的现代架构,如Network-In-Network、ResNet和Inception,这些网络具有流线型卷积结构。我们还比较了相同架构、宽度和深度但采用不同框架训练的网络(性能差异显著),发现隐藏激活的统计量不仅与图像中预测物体的空间分布相关,且高精度网络的注意力相关性更强——强网络的注意力峰值常出现在弱网络无响应的区域(见图4)。此外,不同层的注意力图关注不同区域:浅层神经元对低级梯度点(如边缘)激活更强,中层聚焦判别性区域(如眼睛、车轮),而高层对应完整物体。例如,人脸识别网络(Parkhi et al., 2015)的中层注意力图在眼睛、鼻子和嘴唇区域激活更高,而高层注意力覆盖整张人脸(图2)。

图2:在一个人脸识别网络的不同层级上,绝对值之和注意力图Fsum的可视化结果。中间层的注意力图在眼睛、鼻子和嘴唇周围具有更高的激活水平,而高层级的激活则对应于整张脸。

关于前述不同的注意力映射函数,其特性略有差异:

  • 相比Fsum(A),(p>1)对高激活神经元的空间位置赋予更大权重,即更强调判别性区域(p越大,聚焦性越强)。

  • 对于同一空间位置的多个神经元激活,仅选取其中一个最大值作为权重(而倾向于支持具有多个高激活神经元的位置)。

为进一步说明不同注意力映射函数的差异,我们可视化了三类分类性能差异显著的网络:Network-In-Network(Top-1验证集准确率62%)、ResNet-34(73%)和ResNet-101(77.3%)。对每个网络,我们提取了最后一次降采样前的激活图——图4左侧为中层激活,右侧为全局平均池化前的顶层激活。顶层注意力图较为模糊,因其原始空间分辨率仅为7×7。显然,最具判别性的区域(如狼的面部)激活强度更高,且随着指数参数pp增大,形状细节逐渐消失。

在注意力迁移中,给定教师网络的任一上述方法生成的空间注意力图,目标是训练学生网络不仅预测正确,其注意力图还需与教师相似。通常可在多个层级的注意力图上施加迁移损失。以ResNet架构为例,根据师生网络深度差异分为两种情况:

  • 深度相同在每个残差块后添加注意力迁移层。

  • 深度不同在每组残差块的输出激活上迁移注意力(如教师每2个块对应学生1个块)。

类似策略也适用于其他架构(如NIN中每组包含3×3、1×1、1×1卷积的组合)。图5展示了残差网络不同深度情况的示意图。

    图5:当两个网络均为残差网络且教师网络更深时,教师-学生注意力转移的示意图。

    在不失一般性的前提下,我们假设迁移损失作用于空间分辨率相同的师生注意力图之间(若尺寸不匹配可通过插值调整)。设S、T和WS、WT分别表示学生、教师及其权重,L(W,x)表示标准交叉熵损失,II为需要迁移注意力图的师生激活层配对索引集,则总损失定义为:

    其中QjS=vec(F(AjS))和QjT​=vec(F(AjT​))分别为第j对师生注意力图的向量化形式,p为范数类型(实验采用p=2)。可见,注意力迁移时使用了L2归一化的注意力图(也可用L1归一化)。需强调的是,注意力图的归一化对学生训练的成功至关重要。

    注意力迁移还可与知识蒸馏(Hinton et al., 2015)结合,此时只需在损失中添加教师与学生标签软化分布的交叉熵项。二者结合时,注意力迁移的计算开销极低——因教师注意力图在前向传播时即可计算(蒸馏过程本身需前向传播)。

    3.2 GRADIENT - BASED ATTENTION TRANSFER

    在此方法中,我们将注意力定义为输入梯度(即输入敏感性图,Simonyan et al., 2014),其空间位置的注意力值编码了输出预测对该位置变化的敏感程度(例如,若某像素的微小变化会显著影响网络输出,则可认为网络正在“关注”该像素)。定义教师和学生损失对输入的梯度为:

    若希望学生梯度注意力与教师相似,可最小化二者之间的距离(此处采用L2距离,但其他距离亦可):

    由于WT和x已知,计算损失对WS的梯度需:

    4 EXPERIMENTAL SECTION

    在接下来的部分中,我们将在各种图像分类数据集上探索注意力转移(Attention Transfer)。我们将这一部分分为两个部分:第一部分包括在 CIFAR 数据集上的基于激活的注意力转移和基于梯度的注意力转移实验;第二部分则是在更大数据集上的基于激活的注意力转移实验。

    对于基于激活的注意力转移,我们使用了 Network-In-Network(Lin et al., 2013)和基于 ResNet 的架构(包括最近提出的 Wide Residual Networks (WRN),Zagoruyko & Komodakis, 2016),因为这些模型在参数数量上相较于 AlexNet 或 VGG 更高效,并且在小规模和大规模数据集上已被广泛研究,建立了强大的基准性能。在 Scenes、CUB 和 ImageNet 数据集上,我们实验了 ResNet-18ResNet-34

    至于基于梯度的注意力转移,由于需要复杂的自动微分计算,我们将实验限制在 不带批量归一化(Batch Normalization)的 Network-In-NetworkCIFAR 数据集 上。

    4.1 CIFAR EXPERIMENTS

    4.1.1 ACTIVATION - BASED ATTENTION TRANSFER

    表1展示了CIFAR-10上各类网络使用基于求和的注意力图(Fsum​)进行注意力迁移(AT)的结果。实验涵盖相同深度的师生组合(如WRN-16-2/WRN-16-1)和不同深度的组合(如WRN-40-1/WRN-16-1、WRN-40-2/WRN-16-2)。所有情况下,注意力迁移均带来显著提升,且与知识蒸馏(KD)结合时效果更佳(AT+KD)。

    为验证WRN中每组(group)至少一个注意力迁移损失的重要性,我们分别训练了仅在group1、group2或group3添加单损失的网络,并与三组损失联合训练的网络对比。结果显示:单独损失对应的错误率为8.11、7.96、7.97,而联合损失为7.93(师生对为WRN-16-2/WRN-16-1),表明每组损失均贡献部分迁移效果。

    我们进一步探究不同注意力映射函数的效果(表2),以WRN-16-1(学生)和WRN-16-2(教师)为例。有趣的是,基于求和的函数(如FsumFsum​、)表现相似且优于基于最大值的函数()。后续实验默认采用平方和函数。公式(2)中的超参数ββ通常设为0.1左右,具体值为10除以注意力图元素数与批次大小的乘积。当AT与KD结合时,β会随训练衰减以简化困难样本的学习。

    4.1.2 ACTIVATION - BASED AT VS . TRANSFERRING FULL ACTIVATION

    为了验证从完整的激活张量中传递信息是否比从注意力图中传递信息更有益,我们尝试了 FitNets 风格的提示方法,直接在完整激活张量上使用 L2 损失,并通过 1×1 卷积层来匹配张量形状。结果发现,这种方法相较于基线学生模型的改进非常有限(见表 1 中的 F-ActT 列)。对于宽度相同但深度不同的网络,我们尝试直接回归到激活值,而没有使用 1×1 卷积层。此外,我们在传递损失之前对激活值进行了 L2 归一化,并在训练过程中衰减公式 2 中的 β 参数,因为这些方法能够带来更好的性能。我们发现,注意力转移(AT)以及完整的激活传递都能够显著加速收敛,但与完整的激活传递相比,注意力转移能够带来更高的最终准确率提升(见附录中的图 7(b))。注意力图携带的信息对于迁移学习来说似乎比完整的激活张量更重要,这一点非常有趣。

    4.1.3 G RADIENT - BASED ATTENTION TRANSFER

    为了简化实验,我们在这些实验中使用了较轻量的 Network-In-Network (NIN) 模型,并且没有应用随机裁剪数据增强和批归一化(Batch Normalization),仅使用水平翻转作为数据增强方法。此外,我们只使用确定性算法和固定种子的采样方式,因此报告的结果是基于单次运行的实验结果。我们发现,在这种设置下,网络已经难以很好地拟合训练数据,因此即使在基线实验中我们也关闭了权重衰减(Weight Decay)。未来,我们计划探索适用于带有批归一化的教师-学生对的梯度注意力机制,因为目前尚不清楚在基于梯度的注意力转移(Gradient-based Attention Transfer, GAT)所需的第二次反向传播过程中,批归一化应该如何表现(例如,是否应该更新批归一化的参数,或者是否需要使用固定的参数进行单独的前向传播)。

    我们研究了以下几种方法:

    • 最小化输入梯度的 L2 范数,即 Drucker 和 LeCun (1992) 提出的双反向传播方法;
    • 对梯度注意力图施加对称范数(见公式 6);
    • 基于梯度的教师-学生注意力转移;
    • 基于激活的教师-学生注意力转移。

    各种方法的结果如表 3 所示。有趣的是,仅仅最小化梯度的 L2 范数就已经表现得相当不错。此外,对称范数是表现最好的注意力范数之一,我们计划在未来对其在其他数据集上的表现进行进一步研究。我们还观察到,与基于激活的注意力转移类似,使用基于梯度的注意力转移也能提升性能。此外,我们在相同的训练条件下训练了一个带有激活注意力转移(Activation-based AT)的网络,其性能在所有方法中最佳。需要注意的是,不带批归一化的学生 NIN 网络架构与教师网络略有不同,它在池化层之前没有 ReLU 激活函数。这种设计在不使用批归一化时表现更好,但在使用批归一化时表现较差。因此,为了实现基于激活注意力转移的最佳性能,我们训练了一个新的教师网络,该网络包含批归一化,但池化层之前没有 ReLU 激活函数,并且在卷积层的输出上设置了注意力转移损失。

    关键字:动漫设计哪个大学好_湛江网站定制_杭州seo建站_哪些网站可以发广告

    版权声明:

    本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

    我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

    责任编辑: