牛津大学让AI学会“物理直觉“:无需看视频就能预测物体运动

📅 2026/6/29 21:36:23
牛津大学让AI学会“物理直觉“:无需看视频就能预测物体运动
这项由英国牛津大学视觉几何组完成的研究以预印本形式于2026年6月25日发布论文编号为arXiv:2606.27364感兴趣的读者可以通过该编号查阅原文。物理世界从不按剧本走。一颗橡皮球从桌子上滚落会以某种弧线弹开一团橡皮泥被扔到地上会以另一种方式扁塌变形。我们人类凭借多年的生活经验不用计算就能粗略预判这些过程。但对于机器人、游戏引擎、虚拟现实系统而言要让计算机真正理解物体在三维空间中怎么运动至今仍是个棘手的问题。牛津大学的研究团队正是为了解决这个问题提出了一个名为PHYSIFORMER的模型。它的核心雄心可以用一句话概括给它一个物体在某一时刻的位置和速度它能预测接下来整段时间里这个物体的完整运动轨迹——不管物体是坚硬的铁块还是软塌塌的橡皮泥不管场景里有一个还是十五个物体。一、从看视频猜物理到直接读懂三维空间过去有研究者尝试用视频生成模型来模拟物理世界。道理听起来挺顺把摄像机拍到的画面输入模型让它预测下一帧会长什么样依次生成下去就像翻连环画一样看起来就有了运动感。但这条路有一个根本性的麻烦——视频本质上是一种幻觉。摄像机只能从一个固定角度记录二维画面物体的真实形状、深度、材质都被压缩成了像素。更糟糕的是同一段真实的物理运动换个拍摄角度就会产生完全不同的视频画面。最近也有研究明确指出目前的视频生成模型在物理合理性方面表现很差经常违反牛顿定律生成在真实世界里根本不可能发生的运动。牛津大学团队的想法是绕开这条弯路直接在三维坐标空间里工作。他们把物体表示为由顶点和三角形面组成的三维网格——这正是MuJoCo、PyBullet等专业物理仿真器使用的那种表示方式。这种表示方式与拍摄角度无关无论从哪个方向看物体的三维坐标始终是那个坐标。换句话说PHYSIFORMER处理的不是从摄像机视角看起来怎样而是物体在真实世界空间中实际在哪里。这种出发点带来了一个关键优势物理规律本身就是在三维空间中运作的用三维坐标来表达运动比用像素来表达要自然得多也准确得多。二、PHYSIFORMER到底在做什么具体来说PHYSIFORMER接受的输入包含三个部分。第一是每个顶点在初始时刻的三维位置记为X?第二是每个顶点在初始时刻的速度记为V?第三是物体的材质类型即是刚性的像金属块还是弹性的像橡皮泥。给定这些初始信息模型需要一次性输出未来整段时间内所有顶点的完整运动轨迹。研究团队将时间离散化为若干帧每帧都有一个对应的顶点位置矩阵轨迹就是这些矩阵按时间排列组成的立体电影。说到这里有一个关键设计选择值得重点解释PHYSIFORMER是一次全部生成而不是一步一步往下预测。后一种方式叫做自回归方法类似于接龙游戏——模型先预测第二帧再用第二帧预测第三帧依次类推。自回归方法在语言模型、粒子系统模拟等领域取得过不少成果直觉上也很合理牛顿力学本来就是马尔可夫链式的知道当前状态就能推算下一刻的状态。但实际上这种接龙方式有一个致命缺陷误差会不断叠加。每一步预测都有微小偏差下一步建立在这个偏差之上偏差再叠加新的偏差几十帧后就可能面目全非。研究团队在实验中发现自回归模型预测到后期时原本坚硬的金属块开始融化变形静止的物体莫名其妙地漂移物体甚至冲破了场景边界——这些都是误差积累惹的祸。PHYSIFORMER选择了一条不同的路把整条轨迹当作一个完整的生成目标一次性生成出来。这样就没有帧与帧之间的误差传递模型能在全局范围内保持时间上的一致性。三、扩散模型像在雕塑一样从混沌中提炼轨迹PHYSIFORMER的生成机制基于一种叫做扩散模型的技术。用一个生活化的类比来理解扩散模型的工作方式有点像雕塑家从一块粗糙的石料中逐渐凿出精细的雕像。在训练阶段研究团队故意把正确的运动轨迹污染——向其中掺入随机的噪声使它变得模糊混乱就像把清晰的雕像磨成了粗石块。然后让神经网络学会反过来操作给它一个被污染的轨迹让它猜出原本干净的轨迹应该长什么样。具体使用的是流匹配框架定义一个从纯噪声τ0到真实轨迹τ1的插值路径网络被训练为预测这条路径在每一点上的流向即该往哪个方向去噪。推理时从一个完全随机的噪声轨迹出发按照网络指引的流向一步步走走到终点就得到了一条物理合理的轨迹。训练时噪声强度的参数选择很有讲究。常规的扩散模型使用标准高斯噪声但这套系统处理的是原始三维坐标信号的尺度和统计特性与图像像素差别很大。研究团队经过实验发现使用标准噪声量的十分之一noise_scale0.1效果最好噪声太小模型泛化能力差噪声太大去噪任务变得过于困难生成结果会有杂乱的抖动。研究人员猜测因为轨迹被初始状态强烈约束有效信号范围本身就比较窄所以较小的噪声尺度更合适。推理时采用Heun积分器默认使用50步迭代去噪但实验表明25步就能得到几乎同等质量的结果速度快一倍。四、三重注意力让模型同时懂时间、懂空间、懂物体PHYSIFORMER的神经网络架构基于扩散变换器DiT这一通用框架但针对物理模拟场景做了若干定制化改造其中最核心的是注意力机制的三重分解。理解这个设计先要知道变换器模型的基本工作方式它把所有输入切成一个个词元token然后让每个词元去关注其他所有词元汇集信息后做出判断。在PHYSIFORMER里每个词元对应一个顶点在某一帧的位置。如果场景里有N个顶点、T帧画面那就有T×N个词元。如果让所有词元彼此关注计算量会以T?×N?的速度爆炸式增长很快就无法承受。研究团队的解决方案是把这个大问题拆成三个小问题交替进行。空间注意力负责处理同一时刻不同顶点之间的关系。具体操作是把T×N个词元重组为T组、每组N个词元的格局让每一帧内部的顶点之间相互关注但不同帧之间暂时不互相联系。这样可以让模型在每一个时刻了解各个顶点现在的相对位置关系就像拍了一张当前场景的快照。时间注意力负责追踪同一个顶点在不同时刻的变化。把T×N个词元重组为N组、每组T个词元让每个顶点自己的历史轨迹上下贯通捕捉这个点是怎么运动的这种时序信息。物体注意力是团队的独特创新。如果场景里有K个物体把属于同一个物体的顶点归在一组组内互相关注。这样模型就能在每个物体内部充分交换信息知道这些顶点属于同一个刚体或弹性体应该保持某种整体性而不需要给每个物体打一个特殊的身份标签。更妙的是这种设计对物体的排列顺序不敏感——无论输入时先列出哪个物体结果都一样这在技术上叫做置换不变性。三种注意力交替叠加总计算量从O(T?N?)降至O(TN?NT?)大幅提升了效率同时又确保信息能在时间、空间、物体三个维度上充分流通。五、坐标感知的位置编码让模型知道谁离谁近变换器模型本身对位置没有感知——如果不做任何处理它无法区分两个顶点是紧挨着还是相隔很远。为了把空间和时间的位置信息注入模型研究团队使用了旋转位置编码RoPE这种编码方式能自然地表达相对位置与物理世界的平移不变性同一个运动场景整体平移后物理规律不变高度契合。时间维度使用标准一维RoPE按帧序号编码。空间维度则沿用了RenderFormer一个三角网格渲染模型的做法直接把顶点的三维坐标转换为旋转角度信息。具体方式是对x、y、z三个坐标分别乘以一组以2为底的对数间隔频率把结果转为正弦余弦系数注入查询和键向量的旋转矩阵中。这样两个顶点之间的注意力强度自然地受它们在三维空间中相对距离的影响更近的顶点更容易互相关注。此外模型还有16个全局注册词元register tokens它们在每次注意力操作后通过平均聚合的方式更新相当于场景级别的全局记忆帮助模型在碎片化的局部注意力操作之间保持整体信息的连贯。六、数据集从零造出十万段物理演练为了训练这个模型研究团队自己用Genesis物理仿真器生成了超过十万段模拟轨迹构成了四个规模递增的数据集。第一个数据集D?包含一万段刚性物体场景每个场景有一到五个凸多面体物体物体从预设的十五种模板网格中选取每个物体的顶点数在四到二十之间。物体被放置在地板上赋予随机的初始线速度部分物体速度为零。为了让静止但不稳定的物体能在重力下自然倒塌每个物体的朝向加入了微小的两度随机扰动。第二个数据集D?包含一万五千段场景模板扩展到二十五种凸形和十种凹形每个物体顶点数最多达八十八。第三个数据集D?规模最大包含六万段场景物体从地面起始和从空中起始各占一半物体数量扩展到最多十个还有部分场景包含初始角速度即物体一开始就在旋转。第四个数据集D?包含两万段弹性物体场景每个物体的杨氏模量固定物体可以产生可见的形变。所有场景都在一个边长两米的立方体容器内进行物体之间、物体与箱壁之间都可能发生碰撞。仿真参数设置为尽量弹性的碰撞摩擦力被最小化但保留了模拟器内置的阻尼以确保数值稳定性因此碰撞是近弹性但并非完全无能量损失。训练策略分阶段推进先在D?上训练七万步得到基础模型PHYSIFORMER-L-10k再在D?D?D?合并数据上继续微调两万七千步扩展到更复杂的刚体场景最后在D?上再微调一万两千步加入弹性物体的能力训练时确保刚性与弹性场景各占六成和四成的比例。七、和自回归基线的正面交锋研究团队精心设计了两类自回归基线来做对比。第一类是他们自己实现的ΦAR框架基于变换器编码器输入当前时刻的顶点位置和速度预测下一时刻的速度再积分还原位置如此循环。为了尽量提升其表现团队探索了两个优化方向。一是延长上下文窗口从只看当前一帧ctx1扩展到回看过去四帧ctx4理论上更多的历史信息有助于更稳定的预测。二是训练时注入噪声ctx4_noised在训练阶段故意向输入中加入与测试时误差积累量级相当的噪声让模型学会从带有误差的输入中恢复模仿测试时自回归推理的真实条件。第二类基线是TIE隐式边缘变换器这是粒子动力学模拟领域的一个有影响力的模型在多个经典基准上超越了图神经网络基线。TIE通过注意力来模拟粒子之间的隐式边缘连接参数r控制两个粒子之间最远有效交互距离。研究团队以r0.4和r1.0两组设置进行测试还在附录中补充了r2.0和r3.5的结果。评估使用三个指标。轨迹均方误差MSE衡量预测轨迹与仿真真值之间的顶点位置平均偏差越低越好。刚性误差使用Kabsch算法为每个物体每一帧找到最佳拟合刚性变换旋转加平移衡量预测位置偏离该变换的程度理想的刚性物体该误差应趋近于零。动量漂移比则比较预测轨迹和真值轨迹的动量随时间变化的幅度比值为1代表完全一致越偏离1越差。数量结果显示PHYSIFORMER在49帧的完整轨迹预测上MSE为9.55×10??远低于自回归基线中最好的TIE(r1.0)的14.8×10??刚性误差为0.185×10??同样优于所有自回归方法TIE最好也有20.6×10??动量漂移比为1.91在所有方法中最接近理想值1。更关键的是TIE和ΦAR的长期表现随时间急剧恶化而PHYSIFORMER的输出在前十帧和全部四十九帧之间仅有温和的差距说明它的生成在时间上保持了稳定的一致性。从定性的视觉对比来看差距更加触目惊心。在测试场景中自回归模型到了后期第三十帧、第四十八帧纷纷出现物体形状严重变形、原本静止的物体无故漂移、物体冲破边界消失的问题即便是最强的TIE(r1.0)也难逃此命运。PHYSIFORMER的输出始终保持物体形状完整静止的物体老实待着不动运动的物体沿合理的轨迹前进。一个有说服力的对照实验进一步证实了自回归方法的根本局限当自回归模型在每一帧都以真实数据作为输入即训练时的理想条件时它的MSE和刚性误差骤降一到两个数量级表现极为出色。这说明这些模型本身是会物理的只是在独立推理时被自身累积的错误拖累了。问题不在学习能力而在于自回归推理架构本身的弱点。八、泛化到从未见过的形状、场景和物体数量PHYSIFORMER另一个引人注目的特性是它的泛化能力。训练数据中使用的都是相对简单的多面体每个物体最多八十八个顶点。但测试时研究团队把斯坦福兔子、茶壶、马等复杂真实世界网格输入模型每个物体有三百五十六个顶点远超训练时见过的规模。模型依然能生成物理合理的运动轨迹物体的整体形状和运动趋势都令人信服。训练时每个场景最多有十个物体但测试时放入十五个物体模型依然能协调所有物体之间的交互正确处理多体碰撞。这背后的原因正是物体层面注意力的设计——无论有多少物体模型只需在组内交换信息新增的物体自然地纳入相同的处理流程不需要额外的工程改造。更有趣的是混合材质泛化。训练时每个场景要么全是刚体要么全是弹性体从未见过两种材质混合的场景。但测试时把刚性金属兔子和弹性橡皮鱼、弹性橡皮茶壶放在一起模型不仅能正确让橡皮体产生形变还能正确保持兔子的刚性并在二者碰撞时产生合理的物理响应。这意味着材质类型的条件信息在模型内部已经形成了足够通用的表示能够在训练分布之外正确组合。定量泛化测试中在训练集测试分割、未见凸体、六到十个物体、未见凹体四种设置下单样本MSE分别为9.1×10??、8.6×10??、1.1×10??、7.3×10??如果每次生成五个候选再选最优表现进一步提升最佳MSE降至5.5×10??到8.6×10??之间。这说明生成式框架带来了一个额外福利可以通过多次采样取最优这在确定性模型中根本无从实现。九、与物理仿真器的速度对决物理仿真器和神经网络模型各有所长那么在实际效率上两者差距有多大研究团队在配备八十线程至强处理器的CPU服务器上测试了Genesis仿真器的速度。对于一到十个刚性物体每个样本平均耗时一到六秒半而对于一到五个弹性物体每个样本平均需要二十到三十六秒因为弹性体的内部力学求解比刚体复杂得多。PHYSIFORMER在单张H100 GPU上使用二十五步去噪每个样本耗时约六秒半对刚体与仿真器速度相当对于弹性物体场景PHYSIFORMER耗时约六秒七而仿真器需要二十到三十六秒速度优势超过五倍。更重要的是PHYSIFORMER的推理时间与场景复杂度的耦合关系远弱于仿真器。仿真器的计算量与物体数量、材质类型、接触事件频率密切相关遇到复杂场景可能急剧变慢。PHYSIFORMER则使用固定数量的去噪步骤每步的计算量主要取决于顶点数量不受材质类型左右。在某些仿真器自己失败的场景中——比如高速碰撞时物体穿越边界或者复杂凹形体导致接触求解失败——PHYSIFORMER依然能给出物理合理的预测展示了神经网络方法在鲁棒性上的潜在优势。十、概率性生成不确定未来的多种可能现实中的物理系统往往存在研究人员没有告诉模型的隐藏变量——物体的精确质量、表面材质的细节、微小的初始朝向偏差。这些因素在理论上决定了系统的确切演化但在实践中很难完整获取。PHYSIFORMER的扩散模型框架对此给出了一个优雅的处理方式把这些未知因素的不确定性转化为生成多样性。每次从同一个初始条件出发模型都能采样出一条不同但同样物理合理的轨迹。这些不同的轨迹代表了在未知参数的不同取值下系统可能演化的不同方向。在实验中对同一个场景生成五条轨迹MSE的标准差在全部四十九帧的评测中为13.5×10??说明不同采样之间确实存在显著差异。但从定性视角看这些不同的轨迹都是合理的物理行为只是因为碰撞角度的微小差异而走向了不同的结局——就像台球在稍有偏差的击打下会奔向不同的袋口每条路都合乎规则但最终结果各异。这一特性对于需要评估风险、规划决策的应用场景尤为有价值。机器人需要在不确定环境中做出安全动作工程师需要评估设计在极端情况下的表现——能看到多种可能的未来比只能得到一种最可能的预测往往更有用。说到底PHYSIFORMER这项工作的真正意义不仅在于它在各项指标上超过了自回归基线更在于它提供了一种全新的视角物理运动预测不必依赖精心设计的刚性约束、接触检测算法或特殊的图结构一个足够通用的扩散变换器在正确的输入表示下通过充分的数据训练完全有能力自发涌现出对物理规律的理解。这种少即是多的设计哲学在很多看似需要大量工程先验的任务上往往能带来意想不到的惊喜。当然这项研究还有清晰可见的局限。目前模型只能生成固定长度的四十九帧轨迹训练时最多支持到三百五十六个顶点对于更精细的网格效果会打折扣完全依赖扩散损失训练没有显式的碰撞检测约束偶尔会出现物体相互穿透的不合理现象在多块生成的长时间滚动推理中刚性误差会随块数增加而积累。这些问题指向了明确的未来方向结合扩散强迫Diffusion Forcing机制实现更长序列生成、引入空间压缩来处理更复杂网格、加入基于碰撞检测的物理约束损失——每一条都是值得深入探索的研究方向。归根结底这项工作向我们展示了一件鼓舞人心的事要让机器理解物理世界也许不需要把物理公式一条条硬编码进去只需要给它足够好的数据、足够好的表示方式再加上一个足够灵活的模型框架机器就能自己摸索出这个世界运行的规律。这对于未来的机器人、游戏引擎、工程仿真乃至数字孪生都是一个令人期待的信号。有兴趣深入探究技术细节的读者可以通过arXiv编号2606.27364查阅完整论文以及访问研究团队的项目主页获取代码、模型权重和视频演示。QAQ1PHYSIFORMER和普通物理仿真器有什么区别A传统物理仿真器需要知道物体的密度、摩擦系数、材质参数等完整物理信息计算量随场景复杂度急剧增加。PHYSIFORMER只需要初始位置、速度和粗略的材质类型用神经网络一次性生成完整轨迹对弹性物体比仿真器快五倍以上还能处理仿真器失败的复杂场景。Q2PHYSIFORMER为什么不用自回归方式逐帧预测A自回归方式每一步的预测误差会叠加到下一步几十帧后误差积累会导致物体形状变形、静止物体漂移甚至冲破场景边界。实验证明自回归模型在用真实数据每帧条件时表现很好说明根本问题不在学习能力而在于误差累积。PHYSIFORMER一次性生成全部轨迹彻底避免了这个问题。Q3PHYSIFORMER如何在没有标记物体身份的情况下区分不同物体APHYSIFORMER通过物体层面注意力隐式编码物体身份把属于同一物体的顶点归为一组让组内顶点相互关注自然地学到同组顶点应该保持整体一致性不需要给每个物体贴标签。这种设计对物体数量和排列顺序都不敏感因此能直接泛化到训练时没见过的物体数量。