深度学习进阶(十二)可变形池化 deformable RS RoI Pooling

📅 2026/6/25 14:14:49
深度学习进阶(十二)可变形池化 deformable RS RoI Pooling
因此我们提出了新的想法能不能让“采样位置”本身变成可以学习的这种想法的实现结果之一就是Deformable PS RoI Pooling可以直译为可变形的位置敏感候选框池化。同样显而易见它的改进就在这个“可变形”上。1. Deformable PS RoI Pooling 的提出和思想#Deformable PS RoI Pooling 起源于 17 年的论文Deformable Convolutional Networks。实际上这篇论文提出了两大核心创新可变形卷积和可变形池化。我们本篇先引入可变形池化内容之后再以此为基础展开可变形卷积的逻辑。而总结来说Deformable PS RoI Pooling 的核心思想是在 PS RoI Pooling 的基础上为每一个 bin 引入可学习的空间偏移。不再过多铺垫我们直接展开它的具体传播过程来理解它的逻辑。2. 偏移学习#我们知道在标准的 PS RoI Pooling 中每个 bin 的采样点是固定的。但在 Deformable PS RoI Pooling 中引入了偏移的概念偏移量不是作用在边界坐标上的而是作用在每个采样点上的。比如 是 bin 内的某个采样位置其引入偏移后就变成了就是这个 bin 的偏移。一个 bin 通常只用一组偏移Δx, Δy它是整个 bin 里所有采样点的“统一偏移”。这里的关键是不是人为设定的而是通过网络学习得到的。显然为了得到这些偏移模型就要有新的结构变化增加一个分支作用是在特征图层面预测偏移再通过 RoI 内的池化操作为每个 bin 聚合出对应的偏移量。其具体逻辑如下如果你看了 DCNv1 的原论文可能会发现一些不同设计在下一部分会展开解释。如图所示假设有 个 bin 那么偏移分支输出的特征图尺寸就是其中每个 bin 对应 2 个通道Δx, Δy。具体拆开我们为偏移特征图的每个通道设定的语义如下通道编号含义0bin(0,0) 的 Δx1bin(0,0) 的 Δy2bin(0,1) 的 Δx3bin(0,1) 的 Δy......这种语义同样是通过结构设计嵌入在反向传播中不断学习得到的。现在我们有了两类特征图位置敏感特征图和偏移特征图。下一个问题是我们要如何聚合两类特征图的信息得到注入偏移信息的 bin ?3. 为 bin 注入偏移信息#在这部分我们首先要强调的是bin 的采样仍然是在位置敏感特征图中进行偏移特征图只是为了给不同的 bin 提供偏移信息。而这部分的详细逻辑可以总结如下对于每个 bin 在偏移特征图中的对应通道的对应区域进行平均池化得到两个方向的偏移量再将偏移量和该 bin 在位置敏感特征图中的所有采样点相加得到最终采样点坐标。如图所示这样有一点需要强调在原论文中bin 在不同类别的偏移量是单独预测的同一个 bin 内的偏移在不同类别间不共享在上一步的通道尺度设计也有所不同图中是现代改进后的主流结构。在这里同一个 bin 的 在所有类别上是共享的。这是因为几何结构的调整通常和类别无关。比如一个 RoI 框住的是“人”他可能左偏一点、头歪一点或者嘴张开一点换成别的类别也一样这些都是结构偏移而不是类别差异。其次也是因为类别级的偏移学习需要更多数据而且需要学习更多参数。由此我们就在采样位置上加入了可学习的偏移量让采样变得更灵活更加“自适应”。但一个新的问题接踵而至学习得到的采样点不是整数怎么办4. 可变形池化的插值问题#这是一个比看起来起来要严重的问题。当采样位置变成它通常不再是整数坐标。因此必须引入一个机制对非整数位置进行特征读取。而这里的处理方式与 RoI Align 类似使用双线性插值从周围点估计该位置的值。不难理解但要注意一点这里的插值不是为了“对齐”而是为了“支持可变采样”。简单展开一下你可能会感觉这里像是把 PS RoI Pooling 和 RoI Align 的逻辑加起来了。但实际上我们在上一篇末尾就提到了PS Pooling 和 Align 通常不会一起使用。在这里使用插值只是为了让可变形池化的计算可以进行而不是为了实现 RoI Align 的几何对齐效果它们只是都用了双线性插值仅此而已。到这里我们就梳理完了所有的改进点之后再对每个 bin 中采样点的特征值进行池化就可以得到最终输出用于后续操作。这便是可变形池化他实现了可学习的采样偏移让池化可以不再按照“严丝合缝的固定方格”进行采样而是可以灵活的进行偏移。一个想法是既然都是采样池化的采样可以偏移那更基础的卷积本身为什么不可以呢这便是下一篇的内容可变形卷积 DCN.作者哥布林学者出处深度学习进阶十二可变形池化 deformable RS RoI Pooling - 哥布林学者 - 博客园版权本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。给自己一些时间。合集: 深度学习进阶