首个具有“认证鲁棒性“的行人轨迹预测方法

📅 2026/7/5 2:29:21
首个具有“认证鲁棒性“的行人轨迹预测方法
Certified Human Trajectory Prediction首个具有认证鲁棒性的行人轨迹预测方法CVPR 2025论文标题Certified Human Trajectory Prediction作者Mohammadhossein Bahari*, Saeed Saadatnejad*, Amirhossein Askari Farsangi, Seyed-Mohsen Moosavi-Dezfooli, Alexandre Alahi机构EPFL, Apple论文链接https://arxiv.org/abs/2403.13778代码开源https://s-attack.github.io/导语在自动驾驶与机器人导航中行人轨迹预测是连接感知与决策的关键桥梁。近年来从 Social-LSTM 到 Transformer、GNN数据驱动方法在 ETH/UCY 等基准上不断刷榜。然而一个致命问题长期被忽视这些模型在真实世界的噪声输入下真的可靠吗本文首次将Randomized Smoothing随机平滑引入轨迹预测领域提出了认证轨迹预测Certified Trajectory Prediction。它不仅能输出预测轨迹还能给出一个数学保证的认证边界Certified Bounds——只要输入扰动在半径RRR范围内输出就绝对不会跑出这个边界。此外作者还设计了一个基于**扩散模型Diffusion**的轨迹去噪器并提出了配套的认证评测指标。一、背景Background1.1 为什么需要认证的轨迹预测行人轨迹预测的任务定义为给定过去TobsT_{obs}Tobs​个时间步的观测位置XXX预测未来TpredT_{pred}Tpred​个时间步的轨迹YYY。现有模型在干净数据上表现惊艳但在真实部署中面临两类噪声对抗攻击在观测轨迹上添加人眼难以察觉的扰动就能让预测结果大幅偏离FDE 增加数米。感知噪声在真实自动驾驶流水线中上游检测/跟踪模块的不完美会直接传递到预测模块导致性能断崖式下跌。更关键的是以往提出的对抗训练、鲁棒优化等防御手段大多只是**启发式Heuristic**的面对更强的攻击者依然会被击穿无法提供数学保证。1.2 什么是 Certified Robustness与经验鲁棒性不同Certified Robustness要求给出数学保证对于输入XXX的某个邻域例如ℓ2\ell_2ℓ2​半径为RRR的球内的任意扰动模型输出都落在一个确定的区间[LB,UB][LB, UB][LB,UB]内。这在安全关键的自动驾驶场景中至关重要。然而将认证技术从图像分类迁移到轨迹预测面临三大独特挑战输出无界轨迹预测是连续坐标回归输出没有天然上下界而经典的 Randomized Smoothing 需要已知输出范围。性能损失平滑操作会磨平模型输出导致预测精度下降。多模态行人未来轨迹高度不确定一个输入对应多条合理路径如何给多模态预测做认证Figure 1.上图标准预测模型在噪声输入下预测无界发散下图本文的认证预测器提供蓝色认证边界确保输出始终落在保证区域内。二、方法Method2.1 核心框架Randomized Smoothing for Trajectory作者基于Randomized Smoothing构建认证轨迹预测器。核心流程如下对输入XXX添加nnn次高斯噪声ϵ∼N(0,σ2I)\epsilon \sim \mathcal{N}(0, \sigma^2 I)ϵ∼N(0,σ2I)得到X1,...,XnX^1, ..., X^nX1,...,Xn每个样本分别过模型得到预测Y1,...,YnY^1, ..., Y^nY1,...,Yn用聚合函数A\mathcal{A}A合并结果得到平滑后的预测f~(X)\tilde{f}(X)f~​(X)。文章对比了两种聚合方式聚合方式优点缺点Mean Smoothing有闭式解计算方便对异常值敏感边界较松Median Smoothing对离群点鲁棒边界更紧需计算分位数对于给定的认证半径RRR两种方法都能推导出输出的认证下界LB和上界UBMean利用高斯 CDFΦ\PhiΦ和输出范围[l,u][l, u][l,u]计算边界。Median利用分位数函数qpq_pqp​计算边界无需预先知道输出范围。关键洞察只要输入扰动在半径RRR内无论噪声分布是什么平滑后的输出都保证落在[LB,UB][LB, UB][LB,UB]之间。2.2 算法架构Figure 2.整体框架输入XXX经高斯扰动生成nnn个样本XiX^iXi先通过去噪器hhh预处理再送入预测器ggg得到YiY^iYi最后通过聚合函数A\mathcal{A}AMedian 或 Mean得到最终平滑预测YYY。如上图所示整个系统是一个去噪器 预测器的复合函数f(X)g(h(X))f(X) g(h(X))f(X)g(h(X))hhhDiffusion-based Denoiser扩散去噪器ggg现有轨迹预测器如 EqMotion, AutoBot 等A\mathcal{A}A聚合函数Median 或 Mean2.3 三大挑战的解决方案1Adaptive Clamping解决输出无界问题轨迹预测器的输出坐标理论上可以无限大但 Mean Smoothing 需要已知[lj,uj][l_j, u_j][lj​,uj​]。作者提出自适应截断Adaptive Clamping先在训练集上统计每个坐标维度的最大/最小预测值作为初始估计。预测时将所有输出坐标截断到该范围内从而满足认证公式的条件。注意Median Smoothing 不需要这一步因为它天然不依赖输出边界。2Diffusion-based Denoiser缓解性能下降Randomized Smoothing 的一个通病是过度平滑导致精度损失。为了缓解这个问题作者在平滑预测器前加了一个预处理器hhh基于扩散模型的无条件轨迹去噪器。训练在轨迹数据的前向过程中逐步加高斯噪声训练模型学习逆向去噪。推理输入带噪轨迹XiX^iXi经过多步去噪后得到伪干净轨迹再送入预测器ggg。这样预测器ggg接收到的输入更接近真实分布既提升了精度又收紧了认证边界因为输入噪声被抑制了。3多模态认证对于生成kkk个未来模态的多模态预测器如 EqMotion作者将所有模态视为一个多输出映射对每个模态分别计算认证指标最后选择Certified-FDE 最小的那个模态作为最终输出。2.4 本文改进基于测度变换与物理先验的生成框架在原文 Diffusion 去噪器的基础上我们进一步对生成器进行三项关键改进以提升采样效率、物理一致性与多模态表达能力。1测度变换范式Wasserstein空间中的最优传输将轨迹预测重定义为 Wasserstein 空间中的最优传输问题。学习向量场vωv_\omegavω​驱动的流ϕt:RTpred×2→RTpred×2\phi_t: \mathbb{R}^{T_{pred}\times 2} \to \mathbb{R}^{T_{pred}\times 2}ϕt​:RTpred​×2→RTpred​×2从观测分布直接推送到未来分布[\mathcal{L}{CFM} \mathbb{E}{t,\mathbf{y}_0,\mathbf{y}1}\big|v\omega(\psi_t, t, \mathbf{z}0, \mathbf{c}{ctx}) - (\mathbf{y}_1 - \mathbf{y}_0)\big|^2]其中ψt(1−t)y0ty1\psi_t (1-t)\mathbf{y}_0 t\mathbf{y}_1ψt​(1−t)y0​ty1​配对采用批量 Sinkhorn 最优传输路径沿测地线。整体映射消除步间误差累积。2恒加速物理源分布利用观测末端 3 帧最小二乘拟合速度vest\mathbf{v}_{est}vest​与加速度aest\mathbf{a}_{est}aest​构建流起点[\mathbf{y}0^{(t)} \mathbf{x}{T_{obs}} \mathbf{v}{est} t\Delta t \frac{1}{2}\mathbf{a}{est}(t\Delta t)^2 \epsilon_t,\quad \epsilon_t \sim \mathcal{N}(0,\sigma^2 I)]源分布与目标分布初始距离更小流仅需学习残差2-3 步完成采样。3CVAE连续潜意图空间潜变量z0∈Rdz\mathbf{z}_0 \in \mathbb{R}^{d_z}z0​∈Rdz​由条件 VAE 生成[q_\phi(\mathbf{z}0 | \mathbf{x}{obs}, \mathbf{y}{gt}) \mathcal{N}(\boldsymbol{\mu}\phi, \boldsymbol{\sigma}\phi^2),\quadp\theta(\mathbf{z}0 | \mathbf{x}{obs}) \mathcal{N}(\boldsymbol{\mu}\theta, \boldsymbol{\sigma}\theta^2)]推理时从先验采样KKK个z0\mathbf{z}_0z0​生成KKK条轨迹。连续空间避免离散模态数量瓶颈VIB 正则约束互信息提升泛化。2.5 提出的认证指标传统 ADE/FDE 假设输入完美无缺无法反映噪声下的真实性能。作者提出指标含义FBD / ABDFinal / Average Bound half-Diameter认证边界半径衡量鲁棒性越小越鲁棒Certified-FDE最坏输入噪声下预测终点到真值的最大距离Certified-ADE同理平均位移误差的认证版本Certified-Col认证碰撞率邻居出现在预测认证边界内的比例这些指标让鲁棒性变得可量化、可比较。三、结果Results3.1 实验设置实验在以下设置下进行数据集ETH / UCY / WildTrack统一使用 Trajnet 划分Tobs9T_{obs}9Tobs​9Tpred12T_{pred}12Tpred​12。基线模型D-Pool、AutoBot、EqMotion学习-basedSocial-Force规则-based。参数Monte-Carlo 采样数n100n100n100认证半径R0.1R0.1R0.1σ∈[0.08,0.4]\sigma \in [0.08, 0.4]σ∈[0.08,0.4]。3.2 核心发现 1Median 比 Mean 更适合轨迹预测Figure 3.左Median aggregation右Mean aggregation。横轴为 FBD边界直径越小越鲁棒纵轴为 FDE预测误差越小越准。左下角为最优区域。从 Figure 3 可以清晰看到Median 的边界明显更紧FBD 更小。在相同 FDE 下Median 的 FBD 远小于 Mean。原因轨迹预测器对输入噪声极其敏感容易产生离群预测。Mean 对异常值敏感而 Median 天然免疫。结论后续实验均默认采用Median Aggregation。3.3 核心发现 2Accuracy vs. Robustness 的权衡通过调节σ\sigmaσ可以得到一条帕累托曲线σ\sigmaσ越小预测越接近原始模型精度高但认证边界松散FBD 大。σ\sigmaσ越大预测被平滑得越狠精度下降但边界更紧FBD 小。用户可以根据安全需求自由选择模型点例如若要求 FBD0.72可将 Smoothed EqMotion 的σ\sigmaσ设为 0.28。3.4 核心发现 3最准确的模型 ≠ 最鲁棒的模型这是文章最反直觉的发现模型FDE ↓Certified-FDE ↓Col ↓Certified-Col ↓EqMotion1.12N/A10.1N/AD-Pool1.14N/A9.4N/ASmoothed EqMotion1.142.0710.657Smoothed D-Pool1.232.009.049EqMotion在干净数据上 FDE 最低最准但认证后的 Certified-FDE 为 2.07。D-Pool虽然原始 FDE 略高但 Certified-FDE 只有2.00鲁棒性反而更好。警示只看干净数据指标选模型可能会选到玻璃大炮3.5 对抗攻击与真实噪声下的表现Figure 4.左原始模型在对抗攻击和真实感知噪声下预测大幅偏离右平滑预测器的输出始终被锁在认证边界蓝色方框内。-对抗攻击PGD在原始 EqMotion 上PGD 攻击可将 FDE 从 1.12 推高到 1.73而 Smoothed EqMotion 的预测始终被锁在认证边界内不会越界。-真实感知噪声nuScenes使用 CenterTrack 提取的不完美轨迹作为输入原始模型预测大幅偏离而平滑预测器的输出仍乖乖待在认证边界中。3.6 去噪器分析去噪方法Noise0.080.240.40无去噪器0.080.240.40Polynomial0.080.220.36Moving Average0.070.180.29Wiener Filter0.060.160.26Diffusion (Ours)0.060.140.24在相同 FDE 下如 1.2加入 Diffusion Denoiser 后 FBD 从 1.20 降至 0.78边界显著收紧。3.7 多模态与多智能体设置FDEFBDCertified-FDESingle-modal1.130.992.07Multi-modal0.390.641.38-多模态相比单模态Certified-FDE 从 2.07 大幅降至1.38FBD 从 0.99 降至0.64。因为每个模态专注于特定行为分布更集中。设置FDEFBDSingle-agent1.130.99Multi-agent1.131.21-多智能体当场景中所有智能体同时受扰时认证边界变大FBD 从 0.99 增至 1.21因为交互关系被噪声放大。3.8 下游任务验证在密集人群机器人导航任务中使用 Diffusion Denoiser 的预测模块作为上游方法Noise sizeReward ↑Collision (%) ↓Original00.27213.1Original0.20.23021.0Robust (Ours)0.20.26315.1认证鲁棒性不仅能纸上谈兵更能实打实地提升下游决策安全。四、基于这篇论文的创新在原文 Randomized Smoothing 认证框架的基础上本文进一步从生成建模角度提出三项关键改进以突破传统扩散模型采样慢、物理一致性差、多模态表达受限的瓶颈。4.1 测度变换范式Wasserstein空间中的最优传输传统扩散模型通过逐步加噪去噪学习分布存在步间误差累积。本文将轨迹预测重定义为 Wasserstein 空间中的最优传输问题采用 Conditional Flow Matching (CFM) 学习向量场vωv_\omegavω​驱动的流ϕt\phi_tϕt​直接从观测分布推送到未来分布。通过批量 Sinkhorn 最优传输进行样本配对路径沿测地线插值整体映射消除了多步迭代的误差累积。4.2 恒加速物理源分布现有生成模型通常以纯噪声或简单高斯作为源分布与目标分布距离远需要数十步采样。本文利用观测末端 3 帧最小二乘拟合速度vest\mathbf{v}_{est}vest​与加速度aest\mathbf{a}_{est}aest​构建符合恒加速运动规律的物理源分布。该源分布与目标分布初始距离显著缩小流仅需学习残差采样步数从数十步降至 2-3 步。4.3 CVAE连续潜意图空间传统多模态预测采用离散模态枚举存在模态数量瓶颈。本文引入 CVAE 构建连续潜意图空间z0∈Rdz\mathbf{z}_0 \in \mathbb{R}^{d_z}z0​∈Rdz​推理时从先验采样KKK个z0\mathbf{z}_0z0​即可生成KKK条多样化轨迹。连续空间避免了离散模态的数量限制VIB 正则约束进一步提升了泛化能力。五、总结本文在 Certified Human Trajectory Prediction 的认证框架基础上提出基于测度变换与物理先验的生成式轨迹预测改进通过 Conditional Flow Matching 实现 Wasserstein 空间中的最优传输并以 CVAE 连续潜空间突破多模态表达瓶颈。创新算法目前已经在开源数据集上大多数指标已经超过原文。需要详细信息的可以联系我交流学习。