自动驾驶感知算法盘点|目标检测篇(一)

📅 2026/6/17 20:03:22
自动驾驶感知算法盘点|目标检测篇(一)
「深蓝学院」推出《自动驾驶感知算法盘点》系列专栏。我们将逐一拆解感知领域的关键技术方向为大家建立完整清晰的技术图谱。本文是该系列的第一篇目标检测。目录01 经典算法盘点两阶段Anchor-Based经典算法单阶段CNN Anchor-Based算法单阶段Anchor-Free算法无锚框、低参数量、轻量化Transformer骨干检测算法02 技术挑战及未来方向自动驾驶感知系统是智能汽车实现自主决策、安全行驶的核心基础相当于车辆的“眼睛”和“视觉大脑”。作为专栏的开篇之作我们聚焦于感知系统最基础、也是最关键的任务之一目标检测。目标检测作为感知模块的核心任务主要分为2D目标检测与3D目标检测两大技术体系。限于篇幅原因本篇先盘点2D目标检测我们按技术架构将算法划分为两阶段Anchor-Based算法、单阶段CNN Anchor-Based算法、单阶段Anchor-Free算法、Transformer视觉骨干检测算法四大类贴合自动驾驶车载RGB图像检测场景。每个算法我们都尽可能直白讲解原理、指明核心创新提炼一下共同点都是同一个大思想下的小改动顺便也说说车载落地适配性贴合自动驾驶车辆、行人、交通标识、遮挡小目标检测需求。01 经典算法盘点两阶段Anchor-Based经典算法它们的共性是遵循「候选框生成→特征精修分类回归」双流程先筛前景候选区域再微调边框、完成分类误检率低、密集遮挡目标精度高缺陷是推理链路长、帧率低车载边缘算力部署压力大均依托锚框Anchor设计。1R-CNN简介选择性搜索提取2000个图像候选框逐个裁剪送入CNN提特征搭配SVM完成分类、边框微调。亮点首次将卷积深度学习引入自动驾驶2D检测替代传统HOG人工特征检测精度跨越式提升。局限但是候选框重复卷积、速度极慢无法车载实时部署。2Fast R-CNN简介对整张图像仅卷积提取一次全局特征通过RoI池化层截取候选框特征分类、边框回归联合训练。亮点共享图像卷积特征、取消重复计算合并训练流程相较R-CNN提速多倍解决模型分段训练、特征冗余痛点。局限保留选择性搜索候选框无网络自主生成候选区速度大幅优化但未摆脱传统区域搜索。3Faster R-CNN简介原理是骨干网络提特征新增RPN区域建议网络自主生成Anchor锚框与候选区RoI池化后完成检测完整端到端卷积架构。亮点用神经网络RPN替代选择性搜索实现首个全深度学习两阶段检测器成为自动驾驶高精度检测基线。是同系列精度最优、推理最快是R-CNN、Fast R-CNN终极优化版本量产高精度感知基线模型。公众号【深蓝AI】后台私信0614免费获取目标检测算法汇总包单阶段CNN Anchor-Based算法共同特点是舍弃独立候选框分支整张图像单次前向推理同步输出类别边框推理速度远快于两阶段模型依托预设Anchor车载帧率高、轻量化易部署但是小目标、正负样本失衡为通用短板。包含SSD、RetinaNet、EfficientDet、YOLOv3/v4/v5/v7/v8/v9全系列。1SSD简介是多尺度特征金字塔分层检测浅层特征查远距离交通小目标深层特征查近处车辆多尺寸Anchor匹配目标。核心创新首创单阶段多尺度检测架构兼顾YOLO速度与Faster R-CNN定位精度适配车载大小交通目标。异同比初代YOLO小目标精度更强无复杂骨干、部署简单正负样本不均衡缺陷未解决。2RetinaNet出自何恺明团队的经典算法简介沿用FPN特征金字塔SSD锚框架构更换损失函数优化模型训练。核心创新提出Focal Loss焦点损失压制背景负样本权重、解决单阶段正负样本失衡痛点单阶段精度追平两阶段算法。效果架构贴合SSD核心革新损失函数拥堵车流、复杂背景自动驾驶检测效果大幅提升。3EfficientDet来自Google Brain团队EfficientDet是一系列可扩展的高效的目标检测器的统称。简介复合缩放统一优化骨干网络、特征金字塔、检测头维度双向加权FPN融合多尺度特征。亮点提出模型复合缩放策略、BiFPN双向特征融合模块参数更少、多尺度目标泛化性更强雨雪天气图像特征融合效果优异。异同相较SSD、RetinaNet特征融合更高效模型轻量化、泛化性拉满车载算力适配性更强。4YOLOv3简介引入Darknet-53骨干、三尺度FPN检测网格预测Anchor端到端回归检测。亮点主要是替换深层骨干、多尺度小目标优化平衡自动驾驶检测速度与精度工程落地性大幅改善。初代均衡型YOLO弥补v1/v2小目标漏检缺陷算力开销适中。5YOLOv4简介优化骨干激活函数、Mosaic车载图像增强、CIoU边框损失。核心创新新增自动驾驶路况专属数据增强、优化损失函数逆光、夜间路况鲁棒性提升。异同纯工程trick优化网络骨架不变恶劣路况适应性优于v3。6YOLOv5简介轻量化C3骨干、自适应锚框、自适应图像缩放模型尺寸压缩。亮点实现极致轻量化、自动适配车载图像输入尺寸嵌入式车载芯片快速部署。参数量远低于v4推理帧率更高低成本量产车型首选。7YOLOv7简介ELAN高效聚合模块、辅助检测头协同训练。亮点高效梯度分流结构不涨算力前提下提升精度高速自动驾驶实时检测标杆。速度、精度双向超越v5中高算力车载平台主流选型。8YOLOv8简介解耦检测头、骨干结构重构检测分割双分支联动。核心创新检测、实例分割一体化适配拥堵路段目标轮廓分割兼顾感知与后处理规划。新增分割分支密集车流场景优于v7算法功能多元化。9YOLOv9简介引用GELAN结构、可编程信息蒸馏、隐式特征复用。亮点主要是解决CNN深层特征退化问题道路长尾障碍物、异形目标特征留存能力更强2024卷积YOLO收官版本。ps因为我们是讨论经典算法所以v10/v11...版本等待时间证明。公众号【深蓝AI】后台私信0614免费获取目标检测算法汇总包单阶段Anchor-Free算法无锚框、低参数量、轻量化摒弃人工预设Anchor锚框消除锚框超参调试成本、边框冗余计算结构极简、训练更简单分为中心点预测、角点预测两类自动驾驶形变目标适配性更强。包含CenterNet、CornerNet。1CenterNet简介不预设锚框预测目标物体中心点宽高尺寸以中心点替代边框完成检测。是Anchor-Free主流标杆去除NMS后处理、简化推理流程模型延迟更低。亮点相较锚框模型无锚框调试成本车载推理延迟更低中等尺寸车辆、行人检测最优。2CornerNet简介预测目标左上角、右下角一对角点匹配角点组合生成检测框。首创角点检测范式脱离中心点、锚框双重约束异形障碍物、极端形变目标适配性更强。异同比CenterNet适配不规则道路障碍物但角点匹配易出错常规交通目标精度弱于CenterNet。Transformer骨干检测算法这一类算法依托自注意力机制建模图像全局像素依赖摆脱CNN局部卷积视野局限车流重叠、遮挡、远距离目标精度拉满分为纯视觉Transformer骨干、DETR检测架构两类高阶自动驾驶视觉基线。1ViT简介图像切块序列化输入多头自注意力全局提取图像语义特征替代CNN卷积骨干。亮点视觉任务首个纯Transformer骨干全局语义建模适配大场景道路全局感知。彻底舍弃卷积全局视野最优车载小数据集训练收敛慢。2BEiT简介掩码图像自监督预训练Transformer骨干修复图像掩码特征强化纹理提取。亮点图像掩码预训练车载暗光、雾化破损图像特征修复能力极强恶劣天气适配ViT。属于是基于ViT优化自监督预训练自动驾驶失真图像鲁棒性远超原生ViT。3DeiT简介通过知识蒸馏轻量化Transformer依托CNN模型蒸馏压缩Transformer体量。亮点轻量化蒸馏Transformer大幅降低算力开销适配车载边缘芯片部署。精度逼近ViT参数量、推理速度全面优化落地性优于ViT、BEiT。4Swin Transformer简介是滑动窗口分层注意力、层级化特征提取窗口内注意力降低算力。窗口注意力金字塔层级结构兼顾全局建模与轻量化成为自动驾驶最优Transformer骨干。亮点相较ViT算力需求暴跌、收敛更快兼顾精度与速度工业界感知首选Transformer骨干。5PVT简介是金字塔分层Transformer、渐进式下采样轻量化多级语义特征。核心创新纯Transformer轻量化金字塔结构替代CNN-FPN参数量低于Swin。亮点比Swin更轻量化、车载帧率更高精度小幅下降低成本视觉模型优选。6DETR简介Transformer编码器解码器端到端直接输出检测结果舍弃Anchor、NMS后处理。亮点属于首个Transformer端到端2D检测器简化检测流水线重叠目标误检率大幅降低。局限CNN检测器后处理全部取消重叠车流检测效果比较好但收敛慢、小目标精度差。7Deformable DETR简介采用可变形稀疏注意力仅聚焦目标像素做注意力计算。依靠稀疏注意力提速、优化小目标特征修复DETR收敛慢、远距离路标漏检缺DETR量产优化版本适配自动驾驶远距离、小尺寸交通标识检测车规Transformer检测基线。公众号【深蓝AI】后台私信0614免费获取目标检测算法汇总包02 技术挑战及未来方向自动驾驶2D目标检测从CNN卷积两阶段、单阶段经典架构迭代至Transformer端到端检测体系YOLO、Faster R-CNN、DETR 三大系列支撑了近十年辅助驾驶的量产落地。相较于复杂多模态3D感知优化后的新一代2D检测算法成本优势显著仍是L2级量产自动驾驶的核心感知方案。但当前2D目标检测在车载落地中仍面临多重挑战精度与实时性矛盾突出Transformer高精度模型算力开销大恶劣天气、隧道明暗切换等场景图像失真检测精度断崖式下跌长尾未知障碍物识别能力弱跨场景域偏移导致标注成本高昂。未来结合视觉预训练大模型、端到端、轻量化注意力机制等可进一步解决恶劣天气、长尾目标、跨场景适配难题推动低成本自动驾驶规模化商用。下期我们将继续盘点3D目标检测敬请期待公众号【深蓝AI】后台私信0614免费获取目标检测算法汇总包