Kairos:面向物理AI的原生世界模型栈

📅 2026/6/26 2:36:13
Kairos:面向物理AI的原生世界模型栈
学习、维持与运行世界赋能未来自进化具身智能体基于论文整理Kairos: A Native World Model Stack for Physical AI**核心概述**世界模型正从被动的视觉生成器转变为物理AI的基础性运营基础设施。Kairos团队提出了一个原生世界模型栈通过跨具身数据课程实现原生预训练借助混合线性时序注意力机制统一理解、生成与预测并采用部署感知系统协同设计在服务器级与消费级硬件上均实现低延迟推理。在具身世界模型、长时程生成与动作策略等多项基准评测中Kairos以显著更少的参数规模达到了当前最优性能水平同时保持了卓越的推理效率。一、从视频生成到物理基础设施世界模型的范式转移近年来世界模型World Model领域正经历一场深刻的范式变革。早期研究将世界模型主要视为视频生成工具其核心目标在于合成高保真、时序连贯的视觉未来。以NVIDIA Cosmos为代表的工作利用生成式视频基础模型构建数字孪生为物理AI提供基础设施支撑。与此同时另一股研究潮流聚焦于预测性隐式表征学习Meta提出的JEPA系列包括V-JEPA 2与DINO-world通过在抽象表征空间内部预测未来状态支持物理理解、零样本规划与机器人控制等下游任务。此外交互式环境建模方向也在快速推进World Labs的Marble、DeepMind的Genie 3以及LingBotWorld等工作致力于构建可探索、可交互的三维世界使智能体能够在其中感知、导航并执行操作。上述进展表明世界模型的定位已不再局限于视频生成器这一定义。业界与学界正逐步形成一种共识世界模型应当成为支撑物理AI的基础模型与可定制底层设施服务于仿真、合成数据生成、下游适配以及机器人与自主系统的实际部署。然而这一雄心勃勃的愿景也带来了四大结构性挑战第一异构经验来源导致世界知识学习碎片化开放域视频、人类行为数据与机器人交互数据在感知、行为与具身形态上存在本质差异第二长时程持久状态维持困难现有系统在短时视频续写上表现良好但在长程生成中难以保持物体恒存性、延迟物理效应与多阶段交互的一致性第三世界理解与具身控制之间存在鸿沟许多模型能够预测未来却无法可靠建模智能体动作对世界状态的影响第四部署与闭环运营的现实约束若推理延迟过高或内存开销过大模型将无法嵌入真实的观测-动作-反馈循环难以支持持续在线适应。图1 世界模型的技术演进与Kairos的核心定位。Kairos并非单纯的生成模型而是面向物理AI未来自进化学习而原生设计的可部署基础设施。Kairos正是针对上述瓶颈结构而设计的。它不再将这些问题视为彼此独立的工程难题而是通过一个原生世界-动作模型栈进行联合求解以渐进式跨具身经验学习世界以一致的时序注意力机制维持世界状态以部署感知系统协同设计实现世界的高效运行。与当前普遍采用的先预训练通用视频生成器、再后训练适配下游控制的解耦范式不同Kairos倡导一种面向物理AI的原生预训练哲学——通用物理规律、行为语义与具身基础必须从规模化训练的最初阶段就内生于基础架构之中从而构建一个真正内聚、部署感知的世界-动作基础设施。二、Kairos三大核心支柱学习、维持、运行世界Kairos的核心贡献围绕三个基础层级展开分别对应物理智能系统必须回答的三个根本问题如何学习世界、如何维持世界状态、以及如何在世界中高效运行。2.1 跨具身数据课程原生预训练范式Kairos拒绝了解耦的后训练微调路径提出了一种基于跨具身数据课程Cross-Embodiment Data Curriculum, CEDC的原生预训练范式。该范式的核心洞察在于构建 capable 世界模型所需的知识不均匀地分布在开放域视频、人类行为痕迹与稀缺的机器人交互数据之中。开放域视频提供了广泛的物理与环境规律性但通常缺乏动作基础与任务意图人类数据揭示了结构化行为与交互模式却与机器人具身形态及控制空间并不直接对齐机器人数据对具身操作最为相关但获取成本高昂、覆盖面窄、难以规模化。为了弥合这种多模态、多尺度数据异质性之间的张力CEDC将异构经验组织为一个发展式数据金字塔系统性地引导模型从被动物理理解过渡到主动具身控制。课程分为三个阶段第一阶段为物理知识注入利用数百万小时的开放域视频使模型内化重力、质量守恒、碰撞力学等基础物理规律此时模型扮演旁观者角色第二阶段为人类中心行为对齐通过十万小时级的人类行为数据使模型理解任务组织、意图结构与因果干预建立从观察世界到参与世界的桥梁第三阶段为机器人动作基础将前述物理与行为先验锚定到机器人特定交互数据中实现感知-动作对齐使世界模型从旁观者转变为可在真实环境中执行操作的运营基底。图2 跨具身数据课程CEDC的三层结构从物理规律观察到人类行为模仿再到机器人具身执行形成渐进式发展路径。2.2 统一理解-生成-预测架构与混合线性时序记忆Kairos的架构设计体现了对长时程世界状态维持问题的深刻认识。团队指出短时视频续写可以依赖局部视觉平滑性但世界建模需要更困难的能力——在漫长时间跨度内保持同一个世界的连贯性包括物体恒存性、延迟物理效应、多阶段交互、隐式任务进度以及可能在巨大时间间隙后才显现的因果后果。为此Kairos构建了一个原生的理解-生成-预测统一架构基于混合TransformerMixture-of-Transformers, MoT栈实现。世界理解模块负责从异构输入中提取深度表征采用视觉-语言模型VLM将物理规律描述、多模态传感器流与语言指令转化为高层语义表示世界生成模块基于条件扩散范式以扩散TransformerDiT为骨干在紧凑隐空间中生成高保真未来视频世界预测模块则将机器人动作作为未来世界演化的内在组成部分进行联合建模而非仅模拟未来观测。图3 Kairos原生统一架构理解模块提供因果语义解释生成模块展开物理可信的未来预测模块输出可部署的动作轨迹三者共享世界状态。保证长时程一致性的关键技术在于混合线性时序注意力Hybrid Linear Temporal Attention。Kairos将时序建模分解为三个互补机制滑动窗口注意力SWA负责捕捉局部动态扩张滑动窗口注意力DSWA捕获中程依赖门控线性注意力GLA则作为收缩性全局因果记忆维持持久的世界状态。论文从理论上严格证明了这种时序分解的必要性与充分性当最优预测器依赖超出有限窗口的历史信息时任何纯局部模型都不可避免地承受严格正的信息论超额风险而混合多尺度记忆在全局记忆更新满足收缩性条件时能够将长时程超额风险严格控制在局部逼近误差与几何衰减扰动项的叠加范围内从而从数学上保证了扩展时间跨度上的状态传播一致性。图4 Kairos详细模型架构。多模态理解编码器将视觉、语言与机器人状态嵌入统一表征空间MoT DiT骨干通过共享视频-动作混合注意力实现联合建模右侧展示了混合线性注意力的训练与推理时序分配策略。2.3 部署感知系统协同设计Kairos团队强调对于志在实现闭环自进化的世界模型而言系统优化并非后验加速的奢侈品而是运营层面的必需品。如果推理延迟或内存占用阻碍了模型进入真实观测-动作-反馈循环持续适应便无从谈起。因此Kairos将执行效率作为一等建模原则通过硬件感知计算核、量化协议与令牌流式传输的协同设计在服务器与消费级硬件上均实现了低延迟、低内存占用的推理。具体而言Kairos采用分布匹配蒸馏DMD与一致性蒸馏CM相结合的混合蒸馏策略将预训练的教师模型压缩为仅需4步采样的高效生成器同时保持空间结构、运动动态与物理交互的保真度。在硬件层面团队针对混合注意力的复杂计算依赖特性设计了定制化的算子级并行划分策略对滑动窗口注意力采用Ulysses序列并行对交叉注意力采用基础序列并行对门控DeltaNet采用改进的张量并行并引入分块计算与流式访问机制在消费级GPU上实现了亚毫秒级关键词定位与长时程视频生成。三、技术架构深度解析3.1 混合Transformer与视频-动作联合建模Kairos的骨干网络采用线性DiTLinearDiT设计通过混合注意力机制替代标准的全量Softmax自注意力将时序复杂度从二次降为线性。每个混合块组包含局部、扩张与全局注意力组件分别对应不同时间尺度的信息聚合需求。门控线性注意力GLA基于GatedDeltaNet实现其核心在于Delta更新规则通过软写入强度门控模型在更新记忆状态前先移除过时或重要性较低的键-值关联再写入新信息。同时衰减门控自适应地调节历史记忆的贡献实现精确联想修正与自适应长期记忆控制的结合。GLA作为骨干中唯一的全局注意力机制与负责细粒度局部运动建模的SWA、负责中程时间交互的DSWA形成清晰的能力分工。在世界动作建模层面Kairos将视频DiT与动作DiT置于统一的MoT框架下。视频DiT继承预训练的世界生成能力建模未来视觉令牌动作DiT以约五分之一于视频DiT的参数量预测未来动作令牌。两者通过统一的注意力掩码机制实现联合优化历史视频令牌仅允许自注意力防止未来信息泄漏未来视频令牌与动作令牌则可关注全部历史视觉上下文。值得注意的是动作分支不依赖未来视频令牌因此在推理时可禁用视频生成分支仅生成动作令牌大幅降低注意力与扩散计算开销实现高效的动作推理模式。图5 Kairos自进化框架。系统遵循推出-评估-精炼-更新的闭环循环通过内部Chain-of-Thought分析对多条未来轨迹进行评分、排序与策略优化。3.2 三阶段训练策略与数据工程Kairos的原生预训练流程严格对应CEDC的三层数据结构分为渐进式阶段。第一阶段物理预训练专注于向VideoDiT注入基础物理先验采用从图像到视频、从低分辨率到高分辨率、从短序列到长序列的渐进策略并引入形状感知指数时间步偏移调度器自适应调整不同 latent 时空形状下的有效时间步分布。第二阶段具身预训练引入人类中心数据使模型从无条件视频生成转向任务结构化视频预测学习意图驱动的动作因果表征。第三阶段联合世界-动作训练在冻结VideoDiT粗粒度物理语义的基础上通过联合优化ActionDiT与VideoDiT将低层动作轨迹强制视觉表征从被动合成转向主动、动作条件的预测消除解耦架构中常见的表示错位与灾难性漂移。在数据工程层面Kairos构建了千万小时级的分层数据采集与处理管线。数据来源于开源数据集与自研专有数据的混合策略涵盖人类、机器人、物理现象与通用场景四大核心域。团队设计了多维度质量过滤体系包括美学评分、运动评分、AIGC鉴别、模糊度评估、人体运动检测、OCR检测与去重等模块并基于Qwen3-VL-8B构建了端到端自动标注管线实现视频属性标签与领域标签的结构化标注。针对物理现象数据团队专门构建了物理中心 Caption不仅描述表面现象更解释背后的物理原理针对长时程任务数据则通过显式步骤分解与因果逻辑链构建增强模型的长程任务规划能力。图6 增强文本标注示例。左图为物理中心Caption在描述现象的同时解释背后的力学原理右图为长时程任务Caption将复杂操作分解为具有因果依赖的具体步骤。3.3 推理效率从云端实时到端侧可用Kairos在推理效率方面实现了跨越式优化。在NVIDIA A800上480P分辨率、5秒视频的生成仅需11.7秒单卡或3.0秒4卡达到实时级别在消费级RTX 5090上单卡推理时间为11.4秒4卡为5.7秒。与同类模型相比Kairos-4B在720P、5秒配置下的单卡延迟仅为43秒4卡下低至9秒显著优于Lingbot-28B1436秒/4卡、Cosmos-Predict2.5-14B687秒/4卡与Wan2.2-5B85秒/4卡。图7 人工评测胜率对比。在PAI-Bench、WorldModelBench与DreamGen三项基准上Kairos-4B在多项对比中取得显著优势展现出卓越的生成质量与物理一致性。效率优势来源于架构与系统层面的双重创新。架构上混合线性注意力的线性复杂度使模型在时长与分辨率增加时保持稳定的计算增长曲线系统上定制化的混合并行策略、TeaCache时间步计算复用、Torch.compile图优化与专用融合算子共同压缩了端到端延迟。在消费级设备上Kairos采用FP8/INT8/INT4混合精度量化对Q/K矩阵实施每线程/每warp级细粒度量化并通过仅权重量化将文本编码器压缩至INT4在几乎不损失语义精度的前提下将内存占用降至可与边缘计算硬件兼容的水平。四、实验验证多维度评测全面领先Kairos在具身世界模型、世界动作模型与通用世界建模三类基准上进行了全面评估结果表明其在性能与效率之间实现了优异的权衡。4.1 具身世界模型基准在WorldModelBench机器人子集上Kairos-4B以总分9.30取得领先在指令遵循2.36、物理遵循4.96与常识推理等维度均达到或接近满分。在DreamGen Bench上Kairos-4B在平均物理遵循度0.538与平均总分0.618两项核心指标上均排名第一平均指令遵循度0.698仅次于14B规模的Wan2.2。在PAI-Bench机器人子集上Kairos-4B在域得分88.59与总分82.57上均领先于同规模模型并超越多款14B以上大模型。人工评测进一步验证了这些结果在PAI-Bench上Kairos-4B对Cosmos-Predict2.5-14B的胜率为60.2%对Wan2.2-5B的胜率高达74.1%在WorldModelBench上对Wan2.2-5B的胜率为86.7%对Lingbot-28B为74.7%。图8 Kairos在WorldModelBench上的生成样例展示了其在机器人操作场景中的指令遵循与物理一致性。4.2 世界动作模型基准在机器人控制领域Kairos的世界动作模型WAM在RoboTwin 2.0与LIBERO-Plus两项挑战性基准上取得了新的里程碑。RoboTwin 2.0包含超过50项双手协调操作任务Kairos在清洁环境与随机化环境下的平均成功率分别达到96.9%与95.2%在全部参评方法中位列前茅。在LIBERO-Plus上Kairos-joint变体通过推理时联合视频与动作去噪将平均成功率提升至90.8%显著优于现有VLA与WAM基线。消融实验表明大规模人类中心数据的注入带来了6.0个百分点的平均性能提升而联合训练生成与预测相比仅训练动作预测平均性能提升高达23.2个百分点充分验证了世界建模监督对动作策略学习的关键作用。图9 Kairos在PAI-Bench上的生成样例覆盖抽屉操作、桌面整理、厨房环境等多样化机器人任务。4.3 通用世界建模与长时程生成在通用世界建模评测中Kairos-4B在PAI-Bench全领域评测中取得最佳整体表现在背景一致性、机器人、工业制造等多个子域表现突出。在VideoPhy物理推理基准上Kairos以45.55的平均分超越Cosmos-Predict2.5-14B45.16与Wan2.2-5B38.85展现出对固体-固体、固体-流体与流体-流体交互的准确建模能力。在长时程生成方面当视频时长从5秒扩展到15秒时基线模型在质量指标与领域指标上均出现明显退化而Kairos-4B以79.9的总分保持领先在自动驾驶66.7、机器人80.4、工业制造86.8等长时程敏感领域均展现出优异的稳定性。视觉样例显示在15秒跨度内Kairos能够持续保持物体外观与场景结构的一致性如狗狗与漂浮泡泡的交互、森林晨雾随日照增强而渐消等动态过程均呈现自然连贯的时序演化。图10 Kairos 15秒长时程生成样例。在跨越数百帧的时间跨度内模型保持了物体外观、场景结构与物理动态的连贯一致性。五、总结与展望Kairos的提出标志着世界模型从静态生成展示向可部署、动作敏感、持续演化的运营基底的关键转变。通过跨具身数据课程实现原生知识注入通过混合线性时序注意力保障长时程状态一致性通过部署感知协同设计打通从云端到端侧的推理链路Kairos为物理AI提供了一个内聚且可实际运行的世界模型栈。面向未来Kairos团队规划了两条演进主线。其一自主自进化通过构建完全闭环的自进化框架使Kairos能够持续与真实环境交互自主评估策略执行偏差并通过递归多阶段想象精炼其内部时空物理仿真器最终进化为具备开放式物理适应能力的自改进认知智能体。其二通用具身基底将Kairos从孤立的任务特定环境扩展到真正通用的物理AI平台统一动作空间以适配从复杂人形平台到灵巧多指操作装置的多样化硬件通过开放域环境的异构预训练实现对零样本复杂意图识别与跨无约束物理域的高成功率执行。从学习世界的基础规律到维持世界的持久状态再到在真实约束下高效运行Kairos所搭建的这条能力链条正为下一代具身智能系统的自进化与规模化部署奠定坚实的模型基础设施。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html