EarlyBird:基于早期融合的鸟瞰图目标跟踪算法

📅 2026/6/16 14:27:23
EarlyBird:基于早期融合的鸟瞰图目标跟踪算法
相关基础知识可参见以下博文https://blog.csdn.net/weixin_73611281/article/details/140867942?spm1001.2014.3001.5501本文介绍两篇多相机多目标追踪领域2024年同团队顶会论文EarlyBird系列基于MVDet系列展开致力于基于早期融合的鸟瞰图BEV算法研究。该系列论文主要专注于跟踪任务但模型在检测任务中也取得有竞争力的结果前序研究MVDet、MVDeTr讲解参见以下博文https://blog.csdn.net/weixin_73611281/article/details/140867561?spm1001.2014.3001.5501一、EarlyBirdEarlyBird: Early-Fusion for Multi-View Tracking in the Bird’s Eye View会议WACV 2024论文https://openaccess.thecvf.com/content/WACV2024W/RWS/html/Teepe_EarlyBird_Early-Fusion_for_Multi-View_Tracking_in_the_Birds_Eye_View_WACVW_2024_paper.html代码https://github.com/tteepe/EarlyBird1. 背景尽管单目多目标跟踪MOT取得了很大的进展但遮挡问题仍然是该领域面临的最大挑战之一。遮挡会导致检测丢失和跟踪碎片化从而限制检测和跟踪质量。从多个视图观察场景可以帮助克服这些遮挡因为隐藏在一个相机中的对象可以在另一个相机中可见最近的多视图检测和3D目标检测方法通过将所有视图投影到地平面并在鸟瞰视图BEV中执行检测而实现了巨大的性能飞跃目前的多视角跟踪方法大多在每个视角下进行检测和跟踪并使用基于图的方法来进行跨视角的行人关联。这种空间关联已经通过在BEV中检测每个行人一次来解决只剩下时间关联的问题(1) 多相机多目标跟踪大多数 MTMC 跟踪器使用相机之间的重叠视场FOV将目标建模为概率占用图POM并在跟踪过程中将占用概率与颜色和运动属性结合。作为改进部分研究将 POM 中的跟踪问题表示为整数规划问题并使用 k - 最短路径KSP算法计算最优解后期融合方法每个视角独立处理之后再进行融合A. 检测独立视角处理在每个摄像机视角内生成所有目标的局部轨迹即单视角目标检测B. 融合在所有摄像机上匹配属于同一目标的局部轨迹检测结果关联 — 对不同视角即不同摄像机的检测结果进行融合跨时间步关联 — 对多个时间步内的检测结果进行轨迹跟踪卡尔曼滤波等方法即将不同时间步的目标检测信息生成连续的目标轨迹ps. “检测结果关联”与“跨时间步关联”顺序可以调换【优点】需要较少的硬件处理可以独立地执行并且投影到3D的信息比全图像更稀疏【缺点】此跟踪方法中的任何级均遭受由前一级引入不准确性的影响前期融合方法本文采用先进行融合再进行联合检测A. 融合将各个2D检测投影到3D地平面将所有视图的表示投影到公共地平面或鸟瞰视图B. 检测执行行人检测使用统一的模型进行目标检测、轨迹估计等任务【优点】a. 可以被端到端训练b. 避免了各视角独立处理带来的信息丢失和误差传播问题显著提高探测质量(2) 单视图多目标跟踪一步跟踪 One-Shot Tracking将检测和跟踪结合在单个步骤中进行的单相机多目标跟踪节省计算时间单性能相较两步跟踪更差A. 基于特征重识别【FairMOT】基于 CenterNet 方法采用无锚设计多目标跟踪任务 目标检测任务 重识别任务FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking时间2021论文https://arxiv.org/abs/2004.01888代码https://github.com/ifzhang/FairMOT创新点(1)很多工作先使用锚点检测对象然后根据检测结果提取 re-ID 特征然而当检测结果不正确时re-ID 特征是无用的–该模型通过单一网络同时处理目标检测和重识别任务显著提高了推理速度(2)检测和重识别需要不同的特性并且优化目标存在冲突– 模型特别关注检测和重识别任务的公平性确保两者都能得到有效学习B. 基于运动线索【DT】Detect to Track and Track to Detect会议ICCV 2017论文https://openaccess.thecvf.com/content_iccv_2017/html/Feichtenhofer_Detect_to_Track_ICCV_2017_paper.html代码http://github.com/feichtenhofer/detect-track与静态图像相比视频目标检测存在帧数量大、动作模糊目标或相机移动导致、图像质量低、目标不完整、姿势不常见等问题– 从相邻帧获取输入预测边界框之间的帧偏移【CenterNet】CenterNet: Keypoint Triplets for Object Detection会议ICCV 2019论文https://openaccess.thecvf.com/content_ICCV_2019/html/Duan_CenterNet_Keypoint_Triplets_for_Object_Detection_ICCV_2019_paper.html代码https://github.com/Duankaiwen/CenterNet将目标检测问题转换成中心点预测问题一个目标由一个特征点确定具体来说将输入的图片划分成若干个区域每个区域存在一个特征点网络的预测结果会判断这个特征是否属于对应物体以及物体的种类和置信度同时还会对特征点进行调整获得物体的中心坐标并回归出物体的宽高ps. 通过三重输入当前帧、前一帧、前一帧检测的热图预测目标中心偏移(3) 鸟瞰视图在鸟瞰图空间中透视变换所产生的失真一直是检测的一个挑战作者在MVDet的基础上构建了该论文的方法添加了一个基于ResNet-18的BEV解码器并为解码的特征提供了更大的感受野使模型能够将失真阴影的信息聚合到实际位置2. 创新点提出EarlyBird架构一种在线、端到端、可训练的跟踪架构可大幅提高跟踪的最新技术水平在鸟瞰图中引入了早期融合跟踪并采用了一种简单但强大的在线数据关联策略为 BEV 特征引入了更强大的解码器架构从而改善跟踪结果和检测基线模型MVDet中仅使用一个大卷积核4. 模型输入图像被增强并馈送到编码器网络以产生图像特征随后被投影到地平面并堆叠到 BEV 空间中。然后BEV 空间在垂直维度上减小特征通过解码器网络馈送(1) 编码器假设来自 S 个相机的同步 RGB 输入图像输入3 ×Hi ×Wi输出Cf ×Hf ×Wf其中 Cf 128Hf Hi / 4Wf Wi / 4使用ResNet或Swin Transformer网络对图像的特征进行编码使用网络的三个块最终将图像缩小4倍【Swin Transformer】会议ICCV 2021论文https://arxiv.org/pdf/2103.14030.pdf代码https://github.com/microsoft/Swin-TransformerSwin Transformer 和 Vision Transformer的区别两个连续的 Swin Transformer 块在第 l 层左侧采用规则的窗口划分方案并在每个窗口内计算自关注在下一层 l 1右侧中窗口分区被移动从而产生新的窗口整体网络架构(2) 投影将所有 S 个摄像机的特征投影到预定尺寸 [HgWg] 的地平面网格具有 C 通道的堆叠特征图提供了大小为 S ×Cf ×Hg ×Wg 的 BEV 特征(3) 聚合目标将来自所有S个摄像机的特征联合收割机组合成单个特征即减少BEV特征图的S维过程A. 沿着通道维度连接所有特征图通过 S × Cf × Hg ×Wg →S · Cf× Hg ×Wg 产生高维BEV特征图B. 通过两个2D卷积进一步将该高维BEV特征减少到期望的通道大小 Cg 128(4) 解码器由透视投影引入的失真导致行人特征从其在地平面上的实际位置向外扩展。其他方法认为这种失真识别为对检测精度和所有提出的复杂解决方案如 Deformable Transformer 或 ROI 投影有害目标引入地平面的大接受场过程A. 将 BEV 特征馈送到 ResNet-18 解码器中每一层中 BEV 特征被下采样2B. 使用金字塔网络架构将每层的输出上采样到先前较大输出的大小C. 两个特征在通道维度上级联并应用 2D 卷积特征金字塔产生的解码输出与 Cg × Hg × Wg 的输入具有相同的形状但每个网格位置的感受野更高(5) 头head 损失loss检测架构遵循 CenterNet【Focal Loss】通过重塑标准交叉熵损失来解决极端的前景-背景类不平衡问题用于目标检测领域解决one-stage目标检测中正负样本极不平衡和难分类样本学习问题Focal Loss for Dense Object Detection会议ICCV 2017论文https://openaccess.thecvf.com/content_iccv_2017/html/Lin_Focal_Loss_for_ICCV_2017_paper.html【L1 Loss】平均绝对误差Mean Absolute Error, MAE优点无论输入值都有稳定的梯度不会导致梯度爆炸缺点中心点是折点不能求导【L2 Loss】均方误差Mean Square Error, MSE优点各点都连续光滑方便求导具有较为稳定的解缺点稳健性一般当函数的输入值距离真实值较远时对应loss值在两侧且很大则使用梯度下降法求解时梯度也很大可能导致梯度爆炸重识别 Re-Identification旨在生成可以区分单个行人的特征理想情况下不同行人之间的亲和力应该小于同一行人之间的亲和力(7) 推断在线数据关联采用了由 MOTDT 描述的分层在线数据关联方法但只跟踪从鸟瞰图中看到的行人中心【MOTDT】Real-time Multiple People Tracking with Deeply Learned Candidate Selection and Person Re-Identification会议ICME 2018论文http://arxiv.org/abs/1809.04427代码https://github.com/longcw/MOTDT检测和跟踪可以在不同场景下信息互补高质量检测可以阻止长期跟踪产生的轨迹偏移轨迹预测又可以防范由于遮挡造成的噪声检测通过评分函数对目标检测结果与当前追踪结果进行筛选进而使用级联算法完成多目标追踪的方案以解决检测不可靠问题匹配策略主要包括以下两个阶段【第一阶段】 类似于DeepSORT方法a. 使用卡尔曼滤波器预测轨迹点在下一帧中的位置b. 计算预期中心和检测中心之间的马氏距离c. 通过行人重识别特征计算重识别特征的余弦距离d. 将马氏距离和余弦距离结合成一个综合距离度量e.匈牙利算法与匹配阈值【DeepSORT】一种在线多目标跟踪算法在原始SORT算法基础上进行了改进利用深度学习特征提取模块提取外观特征使用卡尔曼滤波器对目标的运动状态进行预测状态估计使用Mahalanobis距离结合外观特征进行数据关联确定新的检测结果与已有轨迹的对应关系使用匈牙利算法解决关联问题【卡尔曼滤波器】一种递归算法在存在噪声的情况下假设系统噪声和测量噪声呈高斯分布对系统状态进行最佳估计在时间序列数据处理中尤为常用特别是用于跟踪问题预测步骤利用系统动态模型根据上一个时刻状态和控制输入预测当前时刻状态更新步骤利用新观测到的数据对预测状态进行修正【匈牙利算法】解决二分图匹配问题的经典算法选择一个初始匹配调整匹配和顶点标号找到一个可改进路径通过交错路径更新匹配直到不能再找到可改进路径为止【第二阶段】a. 对未检测到的框和轨迹点基于各自框的中心距离进行匹配b. 持续更新轨迹点外观特征以应对潜在的外观变化任何不匹配的中心都被归类为新的轨迹不匹配的轨迹被保留10个时间步以便于以后重新出现时识别5. 实验(1) 评价指标A. 目标检测与评估预测边界框的单目视图检测系统不同多视图检测系统评估投影的地平面占用图。与地面真值的比较不是用交集IoU计算的而是用欧几里得距离计算的报告了 MODA 作为主要性能指标考虑了归一化的漏检和误报、MODP、精确度和召回率【精确度】模型预测为正类的样本中实际为正类的比例TPTrue Positives真正例被正确预测为正类的样本数量FPFalse Positives假正例被错误预测为正类的样本数量【召回率】在所有实际为正类的样本中被正确预测为正类的比例FNFalse Negatives假反例被错误预测为负类的样本数量【MODA】Multiple Object Detection Accuracy衡量多目标检测中检测精度的指标反映了检测框与真实框的一致性FNFalse Negatives假反例实际存在但未被检测出的目标数量FPFalse Positives假正例不存在但被错误检测出的目标数量值越接近1表示模型的多目标检测精度越高【MODP】Multiple Object Detection Precision衡量多目标检测中检测框与真实框之间评估检测框与真实框之间的重叠程度的指标TPTrue Positives真正例被正确检测出的目标数量IoUi Intersection over Union第ii个检测框与真实框的交并比B. 目标追踪报告了MOTA、MOTP、IDF1、MT 和 ML 多项度量指标【MOTA】(Multi-Object Tracking Accuracy)衡量多目标追踪整体精度的指标综合了三种主要错误未检测Missed Targets、误检False Positives、以及身份切换ID Switches越接近1表示追踪算法的准确性越高【MOTP】(Multi-Object Tracking Precision)衡量追踪算法在空间上的精度即测量预测位置与真实位置之间的平均距离误差【IDF1】(ID F1-Score)基于身份的一种F1-score用来衡量追踪结果中正确的身份匹配情况是准确率和召回率的调和平均值关注的是追踪过程中身份的保持情况值越高表示身份切换错误越少【MT】在整个追踪过程中大部分时间通常定义为超过80%的时间都被正确跟踪的目标数量或比例【ML】在整个追踪过程中大部分时间通常定义为少于20%的时间都未被正确跟踪的目标数量或比例(2) 实验结果目标检测结果目标追踪结果消融实验结果(3) 可视化展示二、EarlyBird 改进版同作者团队对EarlyBird了进行进一步完善Lifting Multi-View Detection and Tracking to the Bird’s Eye View会议CVPR 2024论文https://openaccess.thecvf.com/content/CVPR2024W/3DMV/html/Teepe_Lifting_Multi-View_Detection_and_Tracking_to_the_Birds_Eye_View_CVPRW_2024_paper.html代码https://github.com/tteepe/TrackTacular1. 背景(1) 相机提升一种将二维图像中的信息转换到三维空间的方法。通过处理和融合来自多个摄像头或其他传感器的图像数据构建一个三维场景从而更准确地感知环境和物体的位置A. 基于单应性Homography-based的方法一种用于图像几何变换的数学模型通过假设地面是一个平面使用单应性矩阵将图像中的特征点投影到地面上【单应性】用无镜头畸变的相机从不同位置拍摄同一平面物体图像各图像之间存在单应性可以用透视变换矩阵来表示图像之间的映射关系ps.仿射变换属于单应性变换的一种特殊情况指在平面上对一些基本变换如平移、旋转、缩放和剪切的组合进行线性变换得到的【缺点】a. 对地面以上的物体精度较低无法准确处理非平面场景b. 对远离摄像头的物体会产生类似阴影的伪影导致误导性的感知结果B. 基于深度Depth-based的方法利用单目深度估计器来估计每个像素的深度从而将图像中的像素点投影到三维空间中【优点】不需要事先获取明确的深度信息能够从单个图像中推断出深度【缺点】性能高度依赖于深度估计的精确性2. 创新点将新的跟踪策略与三种现有提升方法相结合并将其扩展到具有强重叠的视图提出了一种新的学习关联方法该方法结合了基于外观和基于运动的关联的优点相较EarlyBird增加时间融合模块统一行人跟踪和车辆跟踪两个分支3. 模型模型整体架构编码——从RGB输入图像S × 3 × Hi ×Wi开始图像被增强并馈送到编码器网络以产生下采样图像特征S × Cf × Hi / 4 × Wi / 4投影——使用不同的投影方法将特征投影到公共BEV空间得到S × Cf × Hg × Wg聚合——BEV空间在垂直维度上减小得到Cf × Hg × Wg连接——随后将前一时间步特征连接到当前BEV特征得到2 × Cf × Hg × Wg解码——BEV特征最后通过解码器网络馈送产生检测和追踪结果(1) 提升方法投影提供了图像视图和三维体素BEV视图之间的链接基线方法MVDet采用透视变换的方法此外作者列举深度分段、双线性采样 (Simple-BEV) 、可变形注意力 (BEVFormer) 三种现代提升方法与其形成比较论文中介绍以下四种提升方法A. 透视变换最简单的提升方法不用对高度信息建模B. 深度分段具体步骤如下a.单目深度估计从二维图像中恢复三维场景的深度信息深度分布是图像特征的一部分通过深度预测模型从相机图像模拟点云在这种方法中可以将深度信息视为从二维图像到三维点云的参数化提升b. 在图像特征通道中沿着预测的深度维度对图像特征进行展开即将二维图像信息在不同深度平面上进行投影生成一个包含 (D × Cf × Hi / 4 × Wi / 4 ) 的点云特征c.体素化将各个点云统一到三维空间中并将相邻点云进行融合将每个相机视锥体中生成的点云映射到一个公共的体素空间中考虑每个深度值的概率通常会根据该深度的置信度来对点云特征进行加权处理【体素 voxel】体积 (volume)、像素 (pixel) 和元素 (element) 的组合词相当于3D空间中的像素体素化 Voxelization将物体的几何形式表示转换成最接近该物体的体素表示形式产生体数据集其不仅包含模型的表面信息而且能描述模型的内部属性C. 双线性采样Simple-BEV 的核心思想是简化深度投影的过程不用显式地预测深度具体步骤如下a. 每个三维体素会被投影到二维图像平面上通过相机投影矩阵转换b. 检查投影点是否在图像内部若投影点在图像外部则不参与后续特征提取c. 使用双线性插值从图像中提取亚像素精度特征d. 将特征值赋给这个三维体素对于每个三维体素它会从多个相机图像平面中进行特征采样并对这些特征进行平均通过这种方法可以克服某些视角距离过远或被遮挡而导致缺失信息的问题D. 可变形注意力类似于双线性采样该论文中未采用BEVFormer 使用每个体素作为查询并使用等式将3D参考点投影回2D图像视图对每个查询的2D参考点和那些图像特征位置周围的特征进行采样将特征聚合为加权和作为空间交叉注意的输出(2) 时间聚合跟踪的核心是聚集时间信息论文作者希望在特征级别就融合时序信息而不是仅在检测阶段进行融合在实际应用中目标不会在相邻的时间步之间突然消失或大幅度改变。因此将前一个时间步的特征引入当前时间步的特征处理中可以增强检测的连贯性通过学习不同时间步之间的特征变化架构可以更好地理解目标的运动模式从而避免出现目标丢失或不连续的检测结果(3) 头 headA. 检测模块与 EarlyBird 方法相同B. 跟踪模块学习到上一帧中的位置的偏移偏移幅度可能不同因此选择 Smooth L1 Loss相比L1 loss 改进了零点不平滑问题4.实验(1) 数据集A. Wildtrack来自7个摄像机的400个同步帧覆盖12米乘36米的区域。地平面被量化为480 × 1440网格其中每个网格单元是2.5厘米的正方形。摄像头以1080 × 1920的分辨率捕获图像并以每秒2帧fps的速度进行注释。平均而言每帧有20个人场景中的每个位置由3.74个摄像机覆盖B. MultiviewX16米乘25米将地平面划分为640 × 1000网格。有6个视场重叠的摄像机每个摄像机输出1080 × 1920分辨率的图像。平均而言4.41个摄像头覆盖同一位置。在默认设置下MultiviewX每帧有40人C. Synthehicle一个模拟CARLA智能城市交叉口摄像机的合成数据集3~8个摄像机记录每个交叉路口在交叉路口的中心具有大的重叠区域。该数据集对白天、黎明、夜晚和降雨条件进行建模考虑汽车、卡车和摩托车三个类别(2) State-of-the-Art在RTX 3090 GPU上进行实验(3) 消融实验双线性采样方法相较深度分段方法显示出更好的效果