6-SportsMOT:一个涵盖多种体育场景的大型多目标跟踪数据集(SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Spor)

📅 2026/6/27 3:21:06
6-SportsMOT:一个涵盖多种体育场景的大型多目标跟踪数据集(SportsMOT: A Large Multi-Object Tracking Dataset in Multiple Spor)
摘要在体育场景中,多目标跟踪对于收集运动员统计数据、支持自动战术分析等深入分析具有关键作用。然而现有的MOT基准数据集对该领域关注不足,限制了其发展。本研究提出了一种涵盖多种体育场景的新型大规模多目标跟踪数据集——SportsMOT,该数据集旨在实现对球场上所有运动员的全程追踪,包含来自篮球、排球和足球三大运动项目的240个视频序列,共计超过15万帧画面(接近 15× MOT17) and over 1 .6M bounding boxes (3× 的MOT17规模)。该数据集具有两大显著特征:1)运动轨迹快速且速度变化多样;2) 物体外观相似但可区分。我们预计SportsMOT将推动多目标跟踪技术在基于运动关联与基于外观关联方面的双重进步。通过对比多项前沿跟踪算法,我们发现SportsMOT的核心挑战在于物体关联问题。为解决这一问题,我们进一步提出了一种名为MixSort的新型多目标跟踪框架,该框架引入了类似MixFormer的结构作为辅助关联模型,用于增强现有的基于检测的跟踪方法。 通过将定制化的基于外观特征的关联机制与原有的基于运动特征的关联机制相结合,MixSort在SportsMOT和MOT17数据集上均取得了业界领先的表现。基于MixSort框架,我们对SportsMOT数据集进行了深入分析,并提供了若干有价值的见解。基于MixSort算法,我们开展了广泛的探索性研究,并对 SportsMOT模型提供了深入见解。主要贡献总结如下:1我们构建了一个涵盖多种体育场景的新型大规模 多目标跟踪数据集SportsMOT,该数据集具备两大关键特征:1)运动速度快且速度变化多样; 2)外观相似但可区分,旨在推动目标跟踪与体育 分析技术的发展。2我们在SportsMOT数据集上对若干主流跟踪算法进行了性能评估,结果表明主要挑战在于目标关联问题,并有望为后续研究提供方向。3我们提出了一种新的多目标跟踪框架MixSort,该框架在主流基于检测的跟踪算法中引入了类似MixFormer的结构作为基于外观的关联模型,从而提升目标关联精度。基于MixSort,我们开展了广泛研究,并对SportsMOT提供了深入见解。1、代码和数据集1.1 论文代码https://deeperaction.github.io/ datasets/sportsmot.html1.2 数据集为推动跟踪技术与运动分析领域的发展我们提出了一种针对运动场景的多目标跟踪数据集命名为SportsMOT。该数据集规模庞大、质量高并为各类运动场景中场上的每位运动员提供了详尽标注信息包含来自篮球、排球和足球三个运动类别的240段视频、超过15万帧画面(近15xMOT17[27])以及超过160万个边界框(3xMOT17[27])。为构建适配运动场景的跟踪器平台我们将数据集划分为训练集、验证集和测试集分别包含45、45和150个视频序列。SportsMOT具有两大核心特性:(1)快速且变速的运动需要更合适的运动建模关联;(2)相似但可区分的外观特征则要求外观模型开发更具区分性且更全面的表征。总体而言我们期望Sports-MOT能促使追踪器在两个方面均得到提升:即基于运动的关联与基于外观的关联。2、要解决的问题通过对比多项前沿跟踪算法,我们发现SportsMOT的核心挑战在于物体关联问题。【1】2.1 原有跟踪存在的问题然而在体育场景中我们观察到相邻帧中物体存在快速且速度变化的运动一-例如职业体育赛事中的运动员通常具有高速度并频繁调整奔跑速度这给现有的基于运动关联的方法带来了挑战。如图1所示体育场景中的相邻IoU值及基于卡尔曼滤波器的IoU值均低于MOT17和DanceTrack数据集(更详细的对比见图2和图3)因此需要为体育场景开发更合适的基于运动的关联方法。此外与街道场景中的MOT17和MOT20数据集相比体育场景中的物体外观区分度较低:不仅运动员本身穿着相似且常因摄像机快速移动或目标运动导致画面模糊。与DanceTrack中舞者普遍穿着近乎相同服装的特点不同因此由于运动场景中的运动员外观无法区分他们本质上穿着不同号码的球衣且通常呈现不同的姿态。由此我们得出结论:运动场景中的物体具有相似但可区分的外观这要求外观模型能够构建更具区分度和更全面的表征。【2】基于大规模多目标跟踪数据集SportsMOT,我们对若干最新跟踪方法进行了基准测试,并在训练集上对所有方法进行了重新训练。我们发现IDF1和AssA指标均低于 MOT17上的结果,而DetA指标却相当高,这表明SportsMOT的主要挑战在于目标关联而非目标定位。【2】2.2 评估指标MOTA 是现有运动物体检测(MOT)评估的主要 指标,但其侧重于衡量检测准确率。为突出物体关联性能,我们推荐 HOTA 、AssA及IDF1 作为SportsMOT数据集中的主要评估指标。 HOTA 旨在同等 衡量检测与关联的准确性,并且已被证实更符合人类 直觉。3、提出的创新点为解决这一问题,我们进一步提出了一种名为MixSort的新型多目标跟踪框架,该框架引入了类似MixFormer的结构作为辅助关联模型,用于增强现有的基于检测的跟踪方法。通过将定制化的基于外观特征的关联机制与原有的基于运动特征的关联机制相结合,MixSort在SportsMOT和MOT17数据集上均取得了业界领先的表现。【1】解决 这一问题,我们提出了一种新的多目标跟踪框架MixSort,该框架引入了类似MixFormer的 结构作为基于外 观的关联机制,借鉴了主流基于检测的跟踪算法(例如 ByteTrack 、OC-SORT )。通过整合原有的基于运动的目标关联机制与设计的基于外观的关联机制,在 SportsMOT和MOT17两个基准集上均显著提升了性能。【2】3.1 SportsMOT平台上的多目标跟踪技术在本节中我们提出了名为MixSort的多目标跟踪框架。该框架旨在提升基于外观关联的跟踪性能并可应用于所有遵循检测式跟踪范式的跟踪器例如Byt-eTrack、OC-SORT。首先我们阐述如何利用MixFormer网络计算多目标跟踪中被追踪模板与检测目标之间的视觉相似性;接着描述MixSort的整体流程;最后详细说明Mi-xSort的训练与推理过程。3.2 基于外观的混合前处理工具MixFormerMixFormer。在本段中我们讨论了MixFormer在所提出的框架MixSort中的应用。MixFormer旨在提取目标特定的判别特征并在目标区域与搜索区域之间进行:广泛的信息交互因此它是使MixSort能够计算当前帧搜索区域内被追踪对象模板与被检测对象模板之间视觉相似性的关键组件。原始的MixFormer采用基于角点的定位模块来预测搜索区域内输入模板的左上角和右下角位置。然而我们通过引入热图预测模块对原有角点定位模块进行改进:该模块可预测模板中心位置并生成置信度热图从而实现检测结果与模板之间的相似性计算。为使MixSort适用于多目标跟踪并提升推理速度我们将MixFormer中的混合注意力模块数量从12个减少至4个。计算视觉相似性矩阵的具体步骤如图5所示。图5. MixSort中轨迹与检测结果视觉相似性矩阵的计算示意图。真实目标检测区域的中心用红点标出,其余位置用绿点表示;蓝色虚线框标示了裁剪后的搜索区域;相似性向量中的空白部分表示:对于不在搜索区域内的检测结果,其对应值被设为0。关联策略。为实现检测结果与现有轨迹之间的关联我们采用混合相似度矩阵--该矩阵通过计算目标模板与当前帧搜索区域内检测对象之间的视觉相似度生成。具体而言我们将每个检测结果中心处的热图响应值视为其与模板的视觉相似度指标。最终得到的相似度矩阵随后通过匈牙利算法与IoU矩阵进行融合。首先对于每个现有的轨迹t我们使用卡尔曼滤波器预测其新位置。随后以预测位置为中心、按特定比例裁剪当前帧得到搜索区域s。将s与模板t输入MixFormer后即可生成表示模板与搜索区域相似度的热图H。接下来对于每个中心位于搜索区域 s 内的检测结果 d 我们将其实现与跟踪目标的相似度设为热图H中的响应值;其他检测结果的相似度值均设为0。最后我们将视觉相似度与IoU分数进行融合得到混合相似度矩阵。其中α为权重系数,V 表示使用MixFormer计算得到的视觉相似性矩阵。4.2 混合排序跟踪基于基于检测的跟踪范式,MixSort的处理流程可概括如下:如图6所示,我们首先使用目标检测器获取检测结果。随后,采用运动模型(例如卡尔曼滤波器)预测现有轨迹的新位置。基于这些新位置及轨迹模板,我们计算上述融合相似度矩阵,并利用匈牙利算法将轨迹与检测结果进行关联。对于匹配的轨迹和检测结果,我们更新在线模板;而对于未匹配的轨迹,则保留其状态直至达到设定阈值;对于置信度高于阈值的未匹配检测结果,则初始化新的轨迹。图6. MixSort的处理流程。我们采用运动模型和MixFormer生成融合相似性矩阵以实现关联分析。4.4 训练与推理训练。本文仅讨论MixFormer的训练问题因为其检测器与初始方法(例如ByteTrack)保持一致。原始Mi-xFormer是在SOT数据集上训练的因此我们首先修改了MOT数据集真值标注的格式即将每个玩家的真实轨迹转换为TrackingNet格式。对于每个真实边界框我们计算其在低分辨率热图中的对应中心位置()。根据CornerNet[19]的方法真实热图响应通过二维高斯核函数生成:其中σ会根据边界框的大小进行自适应调整。训练损失 采用基于焦点损失 ]的像素级逻辑回归:其中和β为焦点损失函数中的超参数,我们根据CornerNet模型设定2、β4。推断机制。对于每条轨迹,我们仅维护一个模板,以在准确性和速度之间保持平衡。当检测结果与现有轨迹匹配时,仅当其未覆盖区域(即与任何已检测物体 重叠的区域)占比超过特定阈值时,才将原始模板直接替换为新检测结果,从而降低误导性表征的影响。4、结论与不足本文中,我们推出了SportsMOT ——一个专为体育场景设计的大规模多目标跟踪数据集。该数据集具有两大核心特征:1)运动轨迹快速且速度变化多端; 2)目标外观相似但易于区分。我们在SportsMOT数据集上对多种主流MOT跟踪算法进行了实证研究,并提出了一种全新的MOT框架 MixSort,其中引入了类似MixFormer的关联模块。我们期望SportsMOT能为体育数据分析与多目标跟踪研究提供一个统一的平台。