深度学习进阶(十五)通道注意力 SE

📅 2026/6/25 12:56:18
深度学习进阶(十五)通道注意力 SE
也可以说的再广泛一些大多数 CV 任务的核心就是学习找到数据里的“特征在哪”和“特征是什么”。而位置体现在空间信息中特征则体现在通道信息中。我们在之前的内容里所介绍的内容基本都是围绕前者而展开的自注意力、窗口注意力、可变形卷积本质上都是在让模型更灵活地聚焦空间位置。而后者我们却没有太系统的展开想象这样一个问题卷积得到的特征图中不同通道代表着不同的语义特征边缘、纹理或特定颜色。但所有通道被一视同仁地传到下一层无论这个通道当前是否真的携带了有用信息。显然我们又发现了新的优化空间。于是18 年的论文 Squeeze-and-Excitation Networks 便从这个问题出发提出了一种轻量级的通道注意力机制让网络能够显式地建模通道之间的依赖关系并根据全局信息对每个通道的重要性进行重新校准。由于其结构简单、即插即用时至今日 SE 模块仍然是计算机视觉中最常用的注意力模块之一。1. 通道注意力的核心思想#续接开头我们知道传统 CNN 在完成一次卷积后输出的特征图是一个 的三维张量其中 是通道数。这个张量会原封不动地传给下一层。但实际情况是在一次前向传播中不同通道所携带的信息重要性完全不同。比如一张以猫为主体的图片响应耳朵轮廓的通道可能比响应背景纹理的通道对分类更重要。因此理想的做法是让网络学会对当前任务重要的通道给它更高的权重不太重要的通道适当抑制。SE 模块的核心思想可以概括为通过一个轻量级的子网络自动学习每个通道的重要性权重然后用这个权重重新调整原始特征图。而这个子网络的结构非常简洁由三个操作组成SqueezeExcitationScale下面我们逐一展开。2. Squeeze全局信息压缩#显然要计算权重我们的首要目标便是为每个通道计算一个重要性分数。但问题是卷积层的输出是一个 的张量每个通道本身是一个二维特征图而一个标量的重要性分数需要从整个二维空间中提取出来。也就是说我们需要一种方式把一整个二维空间的信息压缩成一个数值。SE 选择的压缩方式非常简单全局平均池化Global Average PoolingGAP。原理非常简单对于第 个通道的特征图 我们计算其所有空间位置的平均值对所有 个通道分别做一次 GAP我们就得到了一组标量这样一来每个通道就被压缩成了一个标量值它大致代表了该通道在整个空间上的响应强度。一个必定的道理是压缩一定会带来信息损失。但在这里是合理的。因为我们现在的目的不是保留空间结构而是为每个通道产生一个整体的重要性估计。全局均值是一个相当有效的指标。这便是第一步。3. Excitation通道权重的自适应学习#现在我们得到了每个通道的全局描述 下一步就是根据这个描述来生成每个通道的权重。面对这种情况一个很直接也很常见的思路就是归一化计算每个通道的响应在总和中的占比作为权重。但在这里并不合适因为通道之间存在着复杂的非线性依赖关系不能只看响应的数值大小来建模。某些纹理通道可能响应很强但对分类没用某些语义通道响应很弱反而很关键。此外还有通道间可能存在依赖关系比如 “边缘强、颜色弱是目标 A” 这时的特征是组合体现的。单纯的归一化显然无法建模这些情况。要实现自适应显然还是要靠数据驱动。因此SE 用一个两层的全连接网络也就是一个 MLP 来完成这个映射这个过程就是 Excitation其中第一层全连接降维。ReLU 激活函数。第二层全连接升维。Sigmoid 激活函数将输出压缩到 区间。这里的 是一个降维比例reduction ratio是 SE 模块中唯一的超参数通常取 16。除去通过激活函数引入非线性外 的设计其实也是为了控制参数量。如果直接从 映射到 那参数量就是 。当 很大时这个参数量是不可接受的。所以设计为先降维到 再升维回来这样参数量就变为当 时参数量直接降低到原来的 。用专业术语来说这“两边宽中间窄”的结构叫bottleneck瓶颈结构它在减少参数量的同时其实起到在低维空间逼迫网络只保留“最重要的信息”的作用可以提升模型对关键信息的表达能力,是现代深度网络中的核心结构之一。自此SE 的第二步我们也完成了。4. Scale权重应用#得到了通道权重向量 后最后一步就是把这个权重应用到原始特征图上。这一步非常简单逐通道的标量乘法。工程具体实现是靠广播对第 个通道将原始特征图 与对应的权重 相乘