CarlaOcc:首个实例级3D占用预测基准,推动自动驾驶感知新标准

📅 2026/7/3 9:17:38
CarlaOcc:首个实例级3D占用预测基准,推动自动驾驶感知新标准
1. 项目背景为什么我们需要一个更好的3D占用预测基准如果你最近在关注自动驾驶的3D感知研究尤其是“占用预测”这个方向你可能会发现一个现象大家好像都在用不同的数据集、不同的评估标准然后宣称自己的模型取得了“SOTA”。但当你试图复现结果或者想公平地比较两个模型时常常会感到无从下手。这背后反映的正是这个领域长期以来的一个痛点——缺乏一个高质量、标准化、且包含丰富实例信息的基准数据集。传统的3D感知任务比如3D目标检测通常只关心场景中离散的、预先定义好类别的物体如车辆、行人。它输出的是一个带朝向的3D框。这个框能告诉我们“有什么”和“在哪里”但它对物体内部和外部空间的几何细节是模糊的。一个3D框无法告诉你这辆车的车窗在哪里也无法描述一个形状不规则的灌木丛更无法表达那些未被定义为“物体”的开放空间比如天空、地面或者建筑物内部未被占据的部分。占用预测就是为了解决这个问题而生的。它的目标是将整个3D空间体素化然后预测每一个小体素可以想象成3D空间里的一个小立方体是否被占据以及如果被占据它属于什么语义类别。这相当于为自动驾驶车辆构建了一个高精度的、连续的3D环境“占据地图”。这个地图对于路径规划、避障、以及理解复杂场景如施工区域、事故现场至关重要。然而现有的占用预测数据集如早期的SemanticKITTI或nuScenes-Occupancy存在几个明显的局限。首先它们的几何完整性不足。激光雷达点云是稀疏的只能提供物体表面的采样点对于被遮挡的区域或者物体的背面数据是缺失的。这导致生成的“地面真值”占用网格本身就不完整存在大量未知区域。其次分辨率往往不够高体素尺寸较大如0.2米丢失了很多细节。最重要的是它们普遍缺乏实例级的标注。也就是说数据集只告诉你某个体素是“车”但不会告诉你这辆“车”和旁边那辆“车”是不是同一个实例。没有实例信息模型就无法区分场景中多个同类物体这对于跟踪、预测其他交通参与者的意图是致命的。因此整个领域急需一个能同时提供高分辨率、完整几何、实例级标注的占用预测数据集并配以统一的评估协议。这就是CarlaOcc诞生的核心驱动力。它不是一个凭空想象的任务而是直指当前研究瓶颈和实际应用需求的一次“基建升级”。2. CarlaOcc详解一个由仿真驱动的物理一致数据集CarlaOcc的核心贡献是构建了一个全新的、面向实例中心的全景占用预测基准。这个名字可以拆解来看“Carla”指的是其数据生成所依赖的CARLA自动驾驶仿真器“Occ”即Occupancy占用。它的目标是为社区提供一个大规模、物理一致、标注极其精细的数据集。2.1 基石ADMesh——首个面向自动驾驶的统一3D网格库在深入CarlaOcc之前必须理解它的基石ADMesh。这是该工作一个非常关键的前置贡献。以往在CARLA等仿真器中构建场景使用的3D模型资产往往来源不一质量参差不齐语义标签不统一且缺乏实例信息。这就像用不同规格的砖头盖房子很难保证结构的严谨性。ADMesh就是为了解决这个问题而创建的。研究团队整合了超过15,000个高质量的3D网格模型。这些模型不是简单的几何白模而是附带了多样化的纹理和丰富的语义标注。更重要的是这些标注是实例级的。这意味着数据库中的每一辆轿车、每一个路灯、每一个行人模型都有一个唯一的实例ID和精确的语义标签。构建这样一个库的挑战是巨大的。它需要数据清洗与标准化从多个开源模型库如ShapeNet, 3D-FUTURE和自制模型中收集数据统一文件格式、坐标系、比例尺。语义与实例标注为每个模型定义精确的、符合自动驾驶感知需求的语义类别如轿车、卡车、自行车、行人、交通锥、建筑物等并确保每个独立物体都是一个单独的实例。物理属性关联为模型添加基础的物理属性如质量、碰撞体用于仿真中的物理交互虽然这在占用预测中不直接使用但为生成物理一致的动态场景打下了基础。有了ADMesh研究者就拥有了一个乐高积木式的、标准化的“零件库”。这确保了后续在CARLA中搭建的任何场景其基本构成单元都是高质量、语义清晰、实例分明的。2.2 数据生成流程从静态场景到动态序列利用ADMesh和CARLA仿真器CarlaOcc数据集的生成是一个系统性的工程。整个过程可以概括为“场景搭建-动态仿真-数据渲染-真值生成”。第一步多样化静态场景搭建。团队并非随机摆放物体而是精心设计了涵盖城市、乡村、高速公路、隧道、交叉路口、环岛等多种典型驾驶场景的布局。使用ADMesh中的模型按照真实的道路逻辑和交通规则进行摆放。例如在十字路口会精确放置车道线、交通信号灯、路牌、绿化带在路边会摆放不同款式的停车车辆、行人、自行车等。这保证了数据分布的多样性和真实性。第二步引入动态交通流与传感器模拟。静态场景是“死”的而真实世界是“活”的。CarlaOcc通过在场景中注入由AI控制的交通参与者车辆、行人来模拟动态交通流。这些智能体遵循CARLA内置的行为模型能够实现跟车、变道、避障、遵守交通灯等行为。同时在仿真世界中放置一个或多个搭载了虚拟传感器的“数据采集车”。这些传感器的参数如激光雷达的线数、角分辨率、最大测距相机的焦距、视野角都可以精确配置以模拟不同厂商的实际传感器。第三步同步数据采集与真值获取。这是仿真数据相比真实数据的巨大优势。在每一帧通常以10Hz或20Hz的频率仿真引擎会同时输出两套数据传感器数据即模拟的激光雷达点云和相机RGB图像。这是模型的“输入”模拟了自动驾驶车辆实际看到的世界。“上帝视角”真值仿真引擎拥有整个世界的完整数字孪生。它可以轻松地获取当前时刻整个3D场景中每一个物体的精确位姿、形状和语义实例ID。通过一个体素化过程可以将这个完整的世界转化为一个密集的3D占用网格真值。第四步精细化体素真值生成。CarlaOcc的关键优势在于其真值的精细度。研究团队将感知范围如前向100米左右各50米高度-5米到5米内的空间划分为极其细小的体素分辨率可以达到0.05米。对于每个体素真值包含占用状态被占据1或空闲0。语义类别如果被占据它属于哪个语义类如道路、车辆、行人等。实例ID如果被占据的物体是可数的实例如车辆、行人则该体素会被赋予一个全局唯一的实例ID。同一实例的所有体素共享同一个ID。这个过程生成了10万帧的数据每一帧都配有同步的多传感器数据和对应的、精细到体素级的全景占用真值。由于所有数据源于一个物理引擎场景中物体的运动、遮挡关系都是物理一致的这为模型学习复杂的时空动态和遮挡推理提供了完美素材。注意虽然仿真数据可以避免真实数据标注中的噪声和缺失问题但它也面临“仿真到真实”的域适应挑战。CarlaOcc的价值在于提供了一个“干净”且“完备”的理论上限帮助研究者专注于模型结构设计和算法本身而不受数据缺陷的干扰。3. 核心任务与评估指标如何公平地衡量模型好坏有了高质量的数据集接下来必须定义清晰的任务和公平的评估指标。CarlaOcc确立的任务是“实例中心的3D全景占用预测”。这要求模型根据多帧历史传感器数据通常是激光雷达点云序列预测当前帧未来时刻的密集3D占用网格并且这个预测需要同时包含每个体素的语义和实例信息。3.1 任务定义的挑战这个任务比单纯的语义占用预测更难因为它引入了实例分割的挑战。在2D图像中实例分割已经很难在3D密集体素空间中区分两个紧挨着的同类物体如并排停靠的两辆车更是难上加难。模型不仅需要理解几何和语义还需要学习物体的“完整性”概念将属于同一物理实体的分散体素聚类在一起。3.2 标准化评估指标为了全面评估模型性能CarlaOps提出了一套分层的评估指标这也是其作为“基准”的核心价值之一。1. 几何占用评估这是最基础的指标只关心体素是否被占据忽略语义和实例。精确率 召回率衡量预测占据的体素中有多少是真正被占据的精确率以及所有真正被占据的体素中有多少被预测出来了召回率。IoU预测占据体素和真实占据体素之间的交集与并集的比值。这是衡量几何重合度的核心指标。2. 语义占用评估在几何正确的基础上进一步评估语义分类的正确性。通常为每个语义类别计算mIoU即所有类别IoU的平均值。这反映了模型对场景语义理解的整体水平。3. 全景占用评估这是将语义和实例结合起来评估。它将每个“语义类别-实例ID”的组合视为一个独立的类别。例如“轿车-实例#1”和“轿车-实例#2”被视为两个不同的类别。然后计算全景质量PQ。PQ可以分解为分割质量和识别质量的乘积既能反映实例分割的准确性也能反映实例识别的准确性。分割质量对于匹配上的预测实例和真实实例计算它们之间的IoU。识别质量类似于目标检测中的F1-score基于预测实例和真实实例的匹配情况计算。4. 实例占用评估专门针对可数实例如车辆、行人的评估。常用的指标是平均精度它借鉴了2D/3D目标检测的评估方式但计算的是在体素级别的重合度。通过设定不同的IoU阈值如0.25, 0.5可以绘制AP曲线得到AP0.25、AP0.5等指标衡量模型在不同严格程度下检测和分割实例的能力。这套多维度的评估体系迫使模型必须在几何、语义和实例层面都表现良好才能获得高分。它有效地防止了模型通过“偏科”来刷榜确保了评估的全面性和公平性。4. 在CarlaOcc上的基准测试主流模型表现如何有了数据集和评估标准研究团队对当前代表性的占用预测模型进行了一次系统的“摸底考试”。这为我们理解不同技术路线的优缺点提供了宝贵的参考。4.1 参与评测的模型类型评测涵盖了从早期到近期的一些代表性工作大致可以分为几类基于激光雷达点云的方法这类方法直接处理稀疏的激光雷达点云。它们通常先通过一个3D稀疏卷积网络如SparseConvNet将点云编码为体素特征然后通过3D反卷积或上采样网络解码出密集的占用预测。代表模型如OccNet、LMSCNet。它们的优势是对几何形状敏感但受限于点云的稀疏性对于远距离和被遮挡区域的预测能力有限。基于多视图图像的方法这类方法使用多个环视相机图像作为输入。它们利用2D CNN提取每张图像的特征然后通过可学习的视图变换模块如LSS, BEVFormer将2D图像特征“投射”到3D空间形成鸟瞰图或3D体素特征最后解码为占用。代表模型如BEVDet、BEVFormer的占用预测变体。它们的优势是成本低相机比激光雷达便宜且纹理信息丰富但深度估计的准确性是瓶颈容易产生几何失真。多模态融合方法这类方法试图结合激光雷达和相机的优势将点云的精确几何与图像的丰富纹理融合。融合可以在数据级、特征级或结果级进行。这是当前的主流研究方向因为其最接近实际自动驾驶系统的配置。在CarlaOcc上评测的模型可能包括TPVFormer、SurroundOcc等工作的思想。这类模型的挑战在于如何设计高效的融合架构以充分发挥两种模态的互补性。4.2 基准测试的主要发现根据论文摘要的暗示在CarlaOcc这个更严格、包含实例任务的基准上一些普遍的结论可能包括纯视觉方法在几何精度上存在明显天花板由于依赖单目或双目深度估计基于纯相机的方法在远距离和小物体上的占用预测IoU和几何精度指标如Chamfer Distance显著低于基于激光雷达或多模态的方法。它们在语义分类上可能表现不错但“形状”预测不准。实例预测是当前所有模型的薄弱环节即使是表现最好的模型其全景质量PQ和实例AP指标也远低于语义mIoU。这表明将密集的体素准确聚类成有意义的物体实例仍然是一个极具挑战性的问题。模型容易将两个接触的物体预测为一个实例或者将一个大型物体如公交车错误地分割成多个实例。多模态融合展现潜力但并非简单叠加简单地拼接激光雷达和相机特征其效果可能并不比纯激光雷达方法好多少甚至因为模态冲突而变差。有效的融合需要精心设计跨模态的交互机制如注意力机制、门控融合。在CarlaOcc上设计良好的多模态模型有望在各项指标上取得全面领先。时序信息利用不足大多数评测的模型是单帧的。而CarlaOcc提供了序列数据。如何有效利用历史帧信息来提升当前帧的预测特别是对于被遮挡区域的推理和动态物体运动趋势的预测是一个有待深入探索的方向。初步引入递归网络或Transformer时序模块的模型可能会显示出稳定性的提升。这些发现清晰地勾勒出了当前3D全景占用预测领域的现状我们已经在语义理解上取得了长足进步但在精确几何重建和实例级结构化感知方面仍有很长的路要走。CarlaOcc的基准测试就像一面镜子让每个模型都能看清自己的真实位置。5. 对研究与工程实践的启示与展望CarlaOcc的发布不仅仅是一个新数据集那么简单它更像是一份针对整个研究领域的“诊断书”和“路线图”。5.1 对学术研究的启示首先它确立了新的研究重心。过去由于数据限制很多工作只能聚焦于提升语义占用的mIoU。现在有了实例级真值研究社区可以光明正大地将“实例感知的占用预测”作为核心问题来攻关。这可能会催生一系列新的网络结构设计例如在解码器中引入实例中心预测头、掩码注意力机制或者设计基于查询的实例解码器。其次它提供了可复现的严格标准。论文中承诺开源代码和数据集这意味着任何后续研究都可以在完全相同的条件下进行训练和测试。这极大地促进了公平比较使得论文中声称的“提升”更具说服力也节省了研究者们在数据预处理和评估脚本上重复造轮子的时间。第三它揭示了仿真数据的巨大价值。CarlaOcc证明了通过高保真仿真可以生成成本极低、标注完美、场景无限的数据。这对于需要大量标注数据的深度学习模型来说是天大的福音。未来的研究可能会更深入地探索如何利用仿真数据进行预训练再通过域适应技术迁移到真实世界或者研究仿真与真实数据的混合训练策略。5.2 对工业界工程实践的启示对于自动驾驶公司的算法工程师而言CarlaOcc同样具有很高的参考价值。第一它提供了一个绝佳的算法验证沙盒。在将一个新的占用预测模型部署到实车进行代价高昂的路测之前可以先在CarlaOcc上进行充分的离线验证。你可以测试模型在极端天气仿真中可以模拟、复杂交通流、严重遮挡等情况下的表现。由于真值是完美的你可以非常精确地分析模型的失败案例比如是几何不准、语义混淆还是实例分割错误从而进行有针对性的优化。第二它指明了量产系统的技术方向。基准测试的结果暗示纯视觉方案在占用预测上要达到高可靠性仍有难度这或许为激光雷达在L3及以上级别自动驾驶中的必要性提供了另一个佐证。同时它也强调了多模态深度融合的重要性这要求硬件上传感器的时间-空间同步必须做得更好软件上需要更高效的融合计算架构。第三它推动了感知-规划的一体化评估。传统的感知评估是脱离下游任务的。而占用网格本身就是一种非常适合规划模块使用的场景表示。未来业界可能会探索基于CarlaOcc这类数据集进行端到端的“感知-预测-规划”联合评估。例如不仅评估占用的准确性还评估基于此占用地图做出的规划决策的安全性。5.3 未来的挑战与展望当然CarlaOcc也并非终点它开启了新的挑战仿真到真实的鸿沟如何让在CarlaOcc上训练的优秀模型能够很好地迁移到真实世界的传感器数据上是下一个必须攻克的问题。这需要研究更强大的域适应、无监督或自监督学习技术。效率与精度的平衡0.05米分辨率的体素预测对计算和内存是巨大的挑战。未来的模型必须在保持精度的前提下追求极致的效率以满足车载嵌入式平台的实时性要求。稀疏化处理、层次化预测、蒸馏技术等将是研究热点。长尾场景与开集识别即使有15K个模型仿真场景的多样性相比真实世界仍是有限的。如何让模型能够识别和表征训练集中未出现过的物体类别或场景布局开集识别是保证系统安全的关键。动态与不确定性建模当前的占用预测多是静态或短时序的。未来的模型需要更强大的时序建模能力不仅能预测当前占用还能预测未来几秒内场景的动态变化并给出预测的不确定性置信度供规划模块进行风险评估。从我个人的经验来看像CarlaOcc这样的工作其最大价值在于它像一把尺子为混乱的战场划定了清晰的经纬线。它让所有人站在同一起跑线上竞争变得透明进步变得可衡量。虽然它基于仿真但其提出的问题、定义的任务、设立的指标都紧密围绕着自动驾驶感知中最本质、最困难的核心。接下来的一两年我们很可能会看到一大批基于CarlaOcc基准进行改进和创新的工作涌现而整个3D全景占用预测领域也会因为有了这个“标尺”而发展得更加扎实和迅速。对于刚进入这个领域的新手我的建议是先把CarlaOcc的论文和代码吃透在这个基准上复现一个基线模型理解整个数据流水线和评估流程这远比盲目追新模型结构要重要得多。