Qwen-RobotManip:以统一对齐框架解锁机器人操作基础模型的Scaling Law 📅 2026/7/1 1:37:35 通义千问团队提出视觉-语言-动作基础模型新范式通过表征、运动与行为三维对齐实现跨形态规模化训练机器人学习基础模型视觉-语言-动作跨形态泛化核心速览Qwen-RobotManip 基于 Qwen-VL 构建采用流匹配扩散变换器DiT作为动作专家实现视觉-语言-动作的统一建模提出三维统一对齐框架规范状态-动作表征、相机坐标系末端执行器运动预测、上下文策略自适应机制构建约 38,100 小时异构操作数据集涵盖 15 种机器人平台仅使用开源数据与第一人称人类视频在 LIBERO-Plus、RoboTwin-Clean2Rand、RoboCasa365、EBench 等分布外OOD基准上取得领先性能在 RoboChallenge Table30-v1 通用赛道排名第一并在 AgileX ALOHA、Franka、UR、ARX 等真实平台完成验证图 1Qwen-RobotManip 整体技术路线涵盖数据规模化、统一跨形态对齐与性能评估三大维度一、研究背景从语言基础模型到机器人操作的跨越近年来大语言模型与多模态基础模型在开放域任务中展现出卓越的泛化能力其成功关键在于异构数据源能够在统一形式下实现对齐并且互联网上的海量低成本数据使得多样化的训练信号能够相互强化。这一规模扩展Scaling范式在自然语言处理与计算机视觉领域已得到充分验证。然而将其迁移至机器人操作领域面临着独特的挑战与文本数据不同机器人操作数据在本质上具有高度的异构性采集成本高昂且任务多样性相对有限这使得对齐与规模难以同时实现。当前视觉-语言-动作Vision-Language-Action, VLA模型虽然在标准基准上不断刷新成绩但现有研究指出这些模型所展示的泛化能力在很大程度上仍停留在表面。大多数分布外Out-of-Distribution, OOD评估仅涉及轻微视觉扰动同时保持与数据采集相同的机器人形态、任务结构和工作空间布局一旦超出这些狭窄范围性能便会急剧下降。造成这一现象的原因主要有两个方面首先现有的机器人演示数据集集中在有限的遥操作设置中机器形态与任务多样性远不足以支撑规模扩展效应其次更为根本的是数据多样性本身并不足够缺乏对齐的规模化数据反而会产生干扰而非协同。通义千问团队提出的 Qwen-RobotManip 正是围绕先对齐后扩展Alignment First, Then Scale的核心理念展开。该模型基于 Qwen-VL 构建通过引入覆盖表征、运动与行为三个维度的统一对齐框架将大规模多源训练转化为连贯而非冲突的信号叠加。这一对齐能力反过来使模型能够吸收以往训练范式无法支撑的规模化操作数据进而展现出零样本指令遵循、扰动鲁棒性、反应式错误恢复以及跨形态知识迁移等涌现性泛化能力。二、数据引擎构建 38,100 小时异构操作语料2.1 多源数据融合训练数据的质量与多样性是实现强泛化能力的基石。Qwen-RobotManip 的预训练语料由三种互补的数据模态组成跨硬件平台的机器人操作演示、第一人称人类操作视频以及通过人类到机器人合成管道生成的合成数据。整个语料经过统一的筛选与预处理流程确保状态、动作、视频与语言标注的高质量与一致性。在机器人数据方面团队整合了九个开源数据集总计超过 11,000 小时的演示数据涵盖单臂与双臂桌面操作、灵巧操作、移动操作以及人形机器人操作。具体包括 Open X-EmbodimentOXE的子集、AgiBotWorld-Beta、RoboMIND 与 RoboMIND 2.0、Galaxea Open-World、RoboCOIN、DROID、RH20T、RDT-1B 以及 InternData-A1 等。这些数据集覆盖了从单臂桌面抓取到双移动臂家庭操作的广泛场景涉及 Franka、UR、AgileX、人形机器人等多种平台。人类操作数据方面团队从 EgoDex、VITRA 和 EgoVerse 三个来源收集了约 1,933 小时的第一人称视频。所有手部姿态被统一转换为 MANO 参数与 21 个关键点表示为后续的人类到机器人动作重定向奠定基础。2.2 人类到机器人合成管道为弥合人类手部与机器人形态之间的差异研究团队设计了一套端到端合成管道将动作对齐与视觉对齐显式分离。在动作对齐阶段首先基于 MANO 关键点定义虚拟手指通过拇指指尖与虚拟手指的中点计算末端执行器位置以两者距离计算夹爪宽度并构建以抓取轴、法向轴和接近轴组成的右手正交坐标系。针对逐帧检测引入的高频噪声采用 Savitzky-Golay 滤波与高斯加权 SLERP 对轨迹进行平滑处理。在视觉对齐阶段首先利用 SAM3 生成人体手臂的二值掩码随后通过 ProPainter 进行基于光流的视频修复得到无手的干净背景序列。针对第一人称视频缺乏机器人基座位置的问题团队将其建模为优化问题在给定末端执行器轨迹和机器人最大工作半径约束下通过网格搜索寻找使逆运动学可行率最大化的基座姿态。在优化后的基座姿态基础上利用 MuJoCo 进行逆运动学跟踪渲染机器人图像与深度图并通过深度引导合成将机器人自然地融合到清洁背景中。每一段人类演示被渲染到 15 种双臂机器人构型上总计生成约 24,808 小时的合成演示数据。图 2五阶段状态-动作信号筛选与三阶段跨模态质量检查流程确保异构数据源的信号一致性2.3 多阶段数据筛选聚合跨形态、跨模拟器、跨采集管道的数据不可避免地引入了异构噪声。为此团队设计了五阶段状态-动作信号筛选流程突变检测通过级联中值滤波与 Savitzky-Golay 平滑提取趋势结合残差、加速度与加加速度信号识别异常帧状态-动作趋势对齐通过互相关估计最优时延并计算方向一致性指标排除时间戳未同步或丢包的片段极值过滤基于每维度的分位数区间剔除离群值正向运动学一致性通过 Pinocchio 计算并修正工具中心点定义与坐标系假设基座与姿态对齐统一各数据集的世界坐标系朝向。在信号筛选之外还执行了三项跨模态质量检查指令一致性通过多专家视觉语言模型交叉裁决验证语言标注与演示的语义一致性视频-状态一致性通过渲染机器人投影与 SAM3 分割掩码的 IoU 比对验证视频质量过滤则去除黑帧、损坏帧、模糊帧与静态片段。经过严格筛选团队最终构建了约 38,100 小时的高质量操作预训练语料。三、统一跨形态对齐框架Qwen-RobotManip 的核心设计围绕三个互补机制展开分别解决跨形态训练中的表征异构性、运动空间碎片化与行为适配难题。3.1 规范状态-动作表征不同机器人形态的本体状态与动作空间差异显著直接拼接会导致训练信号冲突。团队提出了一种 80 维规范向量结构上分为两个 29 维的臂部块与 22 维的保留维度。每个臂部块按语义组织为7 维关节位置、9 维末端执行器位姿3 维笛卡尔位置与 6 维连续旋转表示、1 维夹爪状态、12 维灵巧手关节。状态向量采用绝对坐标动作向量中关节动作为绝对值末端执行器动作为相对当前状态的增量。不同机器人填充该模板的不同子集7 自由度单臂夹爪机器人填充一个臂部的关节、末端执行器与夹爪字段双臂系统填充两个臂部块配备灵巧手的机器人额外填充手部关节。零填充维度通过逐维度二进制掩码在训练损失中排除确保梯度仅流经语义激活的条目避免对结构缺失自由度施加虚假监督。图 3Qwen-RobotManip 架构设计Qwen-VL 主干通过交叉注意力向流匹配 DiT 动作头注入视觉-语言表征状态与动作共享 80 维规范空间3.2 相机坐标系末端执行器运动预测规范表征统一了结构布局但尚未解决末端执行器在不同数据集中坐标系不一致的问题。当相同运动相对于不同基座或相机坐标系记录时模型必须花费容量调和几何不一致性而非专注于操作技能本身。Qwen-RobotManip 采用相机坐标系增量位姿表示将所有末端执行器动作建立在共享的视觉观测坐标系中。具体而言给定参考相机坐标系 c、当前末端执行器坐标系 e 与目标末端执行器坐标系 e*动作位姿通过将相对末端执行器旋转共轭到相机坐标系并将目标位移投影到相机坐标得到。这种表示的关键特性是视觉上相似的动作在动作空间中数值接近直接对齐动作表征与视觉观测空间促进跨形态迁移。为使动作专家能够推理相机几何团队将相机参数通过相机位置编码CaPE注入 DiT 的交叉注意力层。相机位姿占据每个 64 维注意力头中的 32 维剩余 32 维由 RoPE 用于时间索引。由于 CaPE 是旋转位置编码全局世界坐标系原点在点积注意力中代数抵消仅保留视觉 token 与查询状态/动作 token 之间的相对位姿。此外末端执行器类型嵌入与相机可用性标志通过自适应层归一化进一步调节去噪过程使模型能够应用形态特定的动作先验并在不同模式间切换。3.3 上下文策略自适应尽管跨形态预训练提供了强大的泛化基础部署到新机器人或环境时往往需要在无参数更新的情况下快速调整行为。Qwen-RobotManip 引入了上下文策略自适应机制将近期执行历史观测-动作对作为结构化窗口输入使策略能够在推理时根据当前 episode 的行为动态调整。每个上下文块包含历史视觉观测、本体状态与执行的 K 步动作序列。历史帧与当前帧在视觉编码器中联合处理并附加图像计数标注以帮助模型区分时间位置本体状态与动作块通过轻量级 MLP 编码器投影到 VLM 隐空间并加入学习时间位置嵌入与槽位嵌入。所有历史块按时间顺序序列化为上下文 token 序列通过统一注入模式追加到 VLM 输入序列末端与视觉和语言 token 在因果自注意力下联合处理。为防止模型利用时间近因性捷径简单复制最近动作块训练时采用随机上下文采样从历史中随机位置抽取上下文窗口而非总是取当前步骤前的 H 个块。这迫使模型从 episode 的完整行为轮廓中提取一致的执行风格而非依赖时间邻近性。实验表明没有随机化时模型训练损失低但任务成功率差出现了明显的动作复制捷径引入随机化后模型真正展现出上下文适应能力。四、模型架构与训练策略Qwen-RobotManip 采用解耦架构Qwen3.5-4B 作为视觉-语言主干负责多模态感知与语义推理流匹配扩散变换器DiT作为动作专家负责连续动作生成。视觉 token 通过动态分辨率空间合并后与文本 token 交错输入统一 Transformer。给定一个或多个相机视角与自然语言任务指令主干将其联合编码为同时捕获细粒度视觉特征与任务级语义的上下文表征通过交叉注意力供动作专家消费。动作专家由 10 个 Transformer 块组成隐藏维度 76812 个注意力头。每个块先对拼接的状态-动作 token 序列执行自注意力随后交叉注意力到 VLM 隐状态并通过 SwiGLU 前馈网络处理。交叉注意力层在偶数层关注视觉 token、奇数层关注语言 token使专家在每一阶段分别将动作预测建立在空间观测与语言指令之上。机器人本体状态通过两层 MLP 编码并前置到噪声动作 token 序列。专家以流匹配目标训练从 Beta(1,1.5) 采样时间步 t构建噪声插值 x_t (1-t)ε ta模型预测速度场 v a - ε最小化均方误差。推理时通过 4 步欧拉积分生成动作序列实现低延迟实时控制。训练采用双流共训练策略视觉-语言-动作VLA流包含完整的多源操作语料视觉-语言VL流包含约 2800 万条来自通用视觉理解、空间感知与推理、OCR 与文档理解、多模态专业知识、指令遵循与多语言数据以及专门策划的具身中心数据包括具身思维链推理、第一人称视频理解与 2D 轨迹预测。机器人数据与 VL 数据的比例为 9:1VL 损失权重 λ0.1在防止 VLM 感知与推理能力退化的同时不掩盖动作学习信号。五、分布外评估衡量真正的泛化能力5.1 标准基准的局限性研究团队首先对标准领域内In-Distribution基准的评估效力进行了系统审视。在 LIBERO 与 RoboTwin 等广泛使用的基准上未经大规模机器人预训练的从头训练模型如 StarVLA 与 Qwen-RobotManip-scratch取得了与经过充分预训练的模型如 π0.5相当甚至更优的成绩。这并非偶然而是这些基准的结构特性所致由于训练与评估数据来自相同环境与任务分布高成功率可以通过领域内模式匹配实现无需真正的泛化能力。图 4标准领域内基准左无法区分模型是否受益于大规模机器人预训练分布外基准右清晰显示出预训练带来的真实泛化增益然而在 LIBERO-Plus 与 RoboTwin-Clean2Rand 等分布外基准上图景发生显著变化π0.5 大幅领先于无预训练模型且随着扰动严重程度增加差距进一步扩大。例如StarVLA 在 RoboTwin Easy领域内达到 85.7%但在 RoboTwin-Clean2Rand分布外骤降至 10.6%。这证实分布外评估才是衡量基础模型质量的正确北极星指标它能够揭示预训练所赋予的可迁移结构而领域内指标系统性地无法做到这一点。5.2 任务与场景泛化Qwen-RobotManip 在多项分布外基准上进行了系统评估。LIBERO-Plus 在原始 LIBERO 基础上沿七个正交维度引入受控扰动背景纹理、相机视角、语言指令、光照条件、物体布局、机器人初始状态与传感器噪声。Qwen-RobotManip 在该基准上达到 89.0% 的平均成功率Qwen-RobotManip-Context 进一步提升至 91.4%显著优于 π0.5 的 84.4%。RoboTwin-Clean2Rand 构建了更为严格的评估协议所有模型仅在固定白色背景、默认光照、无干扰物、固定桌高的 Clean 数据集上微调随后在背景、光照、杂物、桌高单一维度以及同时应用所有扰动的 Hard 设置下评估。Qwen-RobotManip 在 Hard 设置下达到 62.6%关节控制与 60.8%末端执行器控制且从 Easy 到 Hard 的性能保持率约为 86%而 π0.5 仅保持约 66%无预训练模型仅保持约 30%。图 5Qwen-RobotManip 在任务与场景泛化、指令遵循、跨形态迁移三个维度上的分布外性能总结全面领先于此前最优方法在 RoboCasa365 上模型在 Atomic18 项基本操作技能、Composite-Seen训练期间见过的多步长程任务与 Composite-Unseen未见过的长程任务三个评估套件上分别取得 68.6%、20.1% 与 14.9%总体 35.9%超越此前最优的 RLDX-133.2%。特别是在 Composite-Unseen 上Qwen-RobotManip 的 14.9% 接近次优结果 5.4% 的三倍展现出显著的分布外组合泛化能力。EBench 评估进一步验证了模型在移动操作平台上的表现在 Table Top、Simple PnP 与 Long Horizon 三个拆分上均取得领先总体成功率 45.6%复合分数 60大幅优于 π0.5 的 27.1% 与 41 分。5.3 指令遵循能力现有分布外基准主要探测视觉与物理扰动的鲁棒性而对未见语言指令的泛化测试相对不足。研究团队基于 RoboTwin 构建了 RoboTwin-IFInstruction Following基准系统评估指令遵循能力 across 五个任务套件目标物体定位从干扰物中根据颜色与名词选择正确物体、空间关系理解将物体放置于指定空间关系位置、多步序列与双臂协调操作抽屉与麦克风、动词辨析在共享场景元素下区分按压与移动、以及三动词-目标辨析在多个可交互物体存在时选择正确动作。图 6RoboTwin-IF 基准示例要求模型在相同或相似视觉场景下根据指令选择正确动作而非依赖视觉模式匹配所有模型仅在 RoboTwin Clean 上微调评估时使用训练期间未见的指令模板。Qwen-RobotManip 在 RoboTwin-IF 上取得 72.2% 的平均成功率领先于 π0.5 的 49.6%差距达 22.6 个百分点。在需要目标物体定位的 Pick-Diverse 套件上优势尤为明显79% vs 44%表明模型建立了真正的语言条件控制而非依赖视觉捷径。5.4 零样本跨形态迁移相机坐标系相对末端执行器动作将运动表达在视觉观测坐标系中使单一策略有潜力控制形态迥异的机器人而无需重新训练。RoboTwin-XE 基准评估了从训练形态AgileX ALOHA到未见形态ARX-X5、UR5-WSG、Franka Panda的零样本迁移。图 7RoboTwin-XE 零样本跨形态迁移评估模型仅在 AgileX 上训练直接在 ARX、UR5 与 Franka 上测试在关节空间控制下由于关节配置具有机器人特异性迁移效果很差平均 14.5%。切换到相机坐标系末端执行器控制后Qwen-RobotManip 达到 23.9% 的平均成功率其中 ARX-X5 上达 42.9%UR5-WSG 上达 22.8%是关节空间的 5.6 倍Franka Panda 上达 5.9%。性能梯度ARX UR5 Franka与训练形态在视觉与运动学上的相似度相关验证了相机坐标系表示成功抽象了形态差异使物理相似的运动在共享笛卡尔空间中具有数值接近性。六、真实世界验证6.1 ALOHA 平台评估在 CobotMagic ALOHA 平台上团队使用 22.9 小时遥操作演示对模型进行微调覆盖多种双臂操作任务。领域内评估包含七项任务桌面清理、三碗叠放、瓜果入碗、毛巾折叠、抽屉内放置方块、黄色圆盘插入与三积木叠放。Qwen-RobotManip 取得 88.6% 的平均成功率其中五项任务五次试验全部成功显著优于 π0.5 的 42.9% 与 StarVLA 的 20.0%。图 8真实世界评估设置涵盖领域内与分布外任务测试模型在视觉变化、未见物体与光照扰动下的鲁棒性分布外评估进一步引入了场景杂乱、未见物体、随机目标、左右空间关系、动态光照变化等扰动。Qwen-RobotManip 在分布外设置下保持 87.5% 的平均成功率在目标物体入篮与左右碗叠放任务上实现十次试验全部成功在工具放置毛巾存在干扰物与未见小物体与香蕉放毛巾迪斯科灯光动态光照上也分别取得 6/10 与 9/10。相比之下π0.5 在需要强组合与关系泛化的任务上性能大幅下降StarVLA 则在所有分布外任务上均未成功。6.2 ARX 平台与少样本适应在 ARX ALOHA 平台上团队开展了少样本适应实验。使用仅 130 条遥操作演示部分任务仅 20 条模型在放置水果、放置积木、折叠毛巾、插入螺丝与拧开瓶盖五项任务上均优于基线。特别是在放置积木任务中模型在打开抽屉、放置两块积木、关闭抽屉四个子步骤上保持更高的逐步成功率展现出更强的长程执行鲁棒性。在拧开瓶盖任务中模型将瓶盖移除率与完整任务完成率均提升至基线的两倍以上。图 9ARX 平台上的少样本适应上与跨形态技能迁移下实验设置6.3 跨形态技能迁移更具挑战性的实验将跨形态技能迁移推向极致单一策略在 6K 条 CobotMagic 演示与 130 条 ARX 演示上联合微调随后在 ARX 平台上执行四项全新任务——叠放盘子、叠放积木、将水果放入指定粉盘、将纸球收集入桶。ARX 平台没有任何针对这些任务的演示相关操作技能必须从运动学不同的 CobotMagic 行为中迁移而来。消融实验表明移除统一动作空间映射仅简单拼接与零填充的变体成功率仅 7.5%移除统一末端执行器表示但保留基本槽位布局的变体成功率仅 12.5%。而完整 Qwen-RobotManip 达到 55.0%在所有四项任务上均取得成功包括叠放积木5/10与纸球入桶7/10。这证明仅有表面维度对齐或部分统一无法弥合形态与任务的双重鸿沟完整的统一动作空间与末端执行器表示使模型能够通过大规模多样化预训练学习更强的操作表征实现技能级迁移。6.4 RoboChallenge Table30-v1为评估模型的通用化能力团队向 RoboChallenge Table30-v1 基准的通用赛道提交了结果。该赛道要求为每种机器人形态训练单一统一策略以处理所有相关任务而非为每个任务单独训练专家模型。Qwen-RobotManip 在通用赛道上取得 45% 的成功率与 59.83 的过程分领先于 DM0_generalist37% / 48.43与 π0.5_generalist17.67% / 31.27排名第一。图 10Qwen-RobotManip 在 RoboChallenge 六项挑战性长程操作任务上的表现此前最优通用方法平均成功率仅 5%详细分析揭示了三个关键优势。首先在需要紧密双臂协调的八项任务上Qwen-RobotManip 平均成功率 40%远超 π0.521.2%、DM016.2%等基线。在将薯条倒入盘子任务中模型协调双臂完成稳定盒子、打开盒盖、拾取倾倒的完整序列而基线在第一协调阶段即失败。其次在 12 项以取放为核心的任务上模型平均成功率 63.3%领先次优基线 15 个百分点。最后模型展现出涌现性的重试行为当初次尝试失败如抓取滑落或放置偏差时策略会自动重新尝试而非进入下一步或停滞。在分类电子产品任务中模型前两次抓取均导致物体坠落第三次尝试成功完成并放入目标箱而基线三次尝试均未实现稳固抓取。七、消融实验与关键发现7.1 动作空间对齐与数据扩展研究团队通过控制实验验证了动作空间对齐对数据扩展的决定性作用。在嵌套数据子集1% 至 100%上的评估显示采用统一表示Ours与部分统一Ours w/o UnifiedEEF的模型均呈现出清晰的扩展规律验证集均方误差随数据量对数线性下降。而缺乏统一空间映射的基线Ours w/o UnifiedSpace在末端执行器动作预测上表现出不稳定且误差显著更高的扩展曲线。图 11不同状态-动作表示设计下的数据扩展曲线。统一表示深紫呈现稳定的对数线性扩展规律缺乏对齐的表示浅紫扩展行为不稳定在下游任务性能上统一表示在 RoboTwin-Clean2Rand Hard 设置下展现出稳定上升的成功率从 1% 数据的约 30% 提升至 100% 数据的 50.2%而消融变体曲线更为嘈杂且提升有限。值得注意的是在领域内 Easy 设置下三种变体均未随预训练数据增加呈现明显上升趋势进一步印证了领域内评估无法捕捉大规模预训练收益分布外评估才是揭示真实扩展行为的必要手段。7.2 架构设计选择在三种架构变体的消融中团队比较了1逐层自注意力并复制 VLM 各层隐状态进行残差融合2仅使用 VLM 最后一层隐状态作为 DiT 输入的纯自注意力3使用可学习查询 token 作为 VLM 最后一层隐状态的代理通过交叉注意力与自注意力混合交互。在 LIBERO-Plus 上的评估表明第三种变体最后一层交叉注意力以 87.5% 的平均成功率取得最高性能同时计算成本最低避免了逐层特征融合与存储完整 VLM 视觉-语言 token 的开销。因此Qwen-RobotManip 采用交叉注意力架构作为默认配置。图 12三种网络架构变体设计1逐层自注意力2最后一层自注意力3最后一层交叉注意力7.3 视觉-语言共训练的作用消融实验表明视觉-语言共训练在预训练阶段对更具挑战性的分布外基准尤为重要。移除 VL 数据后LIBERO-Plus 性能下降 1.2 个百分点但 RoboTwin-Clean2RandHard下降 8.2 个百分点RoboTwin-IF 下降 7.0 个百分点。这表明随着任务多样性、场景复杂度与分布偏移的增加VL 共训练的价值愈发凸显。通用域 VL 数据有助于保留 VLM 的广泛感知与语言能力减少 VLA 训练中的灾难性遗忘空间 grounding 与推理数据提升模型在复杂场景中的物体定位与关系理解能力具身中心数据则进一步对齐 VLM 表征与具身任务的语义结构。图 13不同训练数据比例下的 RoboTwin-IF 性能。引入 VL 数据与预训练 VLA 数据可有效缓解领域特定后训练中的过拟合现象在后训练阶段团队进一步发现混合训练策略的价值。当仅使用目标域数据微调时模型在训练步数增加后会出现严重的过拟合分布外性能持续衰减。引入 VL 数据占训练混合的 10%可显著缓解峰值性能的不稳定性与后续退化进一步加入辅助 VLA 数据占 VLA 数据的 75%则完全消除过拟合使分布外性能随训练持续改进而非衰减。关键前提是统一末端执行器模块移除该模块后基线性能从 71.6% 降至 35.0%若在此条件下引入混合训练则导致完全崩溃0.0%证明统一 EEF 是架构能够吸收混合数据并释放其增益的唯一前提。八、结语Qwen-RobotManip 的研究表明大规模语言与多模态模型的对齐-扩展范式同样适用于机器人操作领域前提是建立正确的跨形态统一形式。通过规范状态-动作表征、相机坐标系末端执行器运动预测与上下文策略自适应三个互补机制研究团队将异构多源数据转化为连贯的训练信号使模型能够吸收以往无法支撑的规模化数据并涌现出零样本指令遵循、扰动鲁棒性、错误恢复与跨形态迁移等泛化能力。该工作同时揭示了领域评估的局限性并推动社区向分布外评估转型。Qwen-RobotManip 在 LIBERO-Plus、RoboTwin-Clean2Rand、RoboCasa365、EBench 以及新提出的 RoboTwin-IF 与 RoboTwin-XE 基准上均取得领先性能在 RoboChallenge Table30-v1 通用赛道排名第一并在 AgileX ALOHA、Franka、UR 与 ARX 等四种真实平台上完成验证。值得强调的是这些成果完全基于开源机器人数据集与第一人称人类视频构建未依赖任何专有数据采集表明在具备合适合成与筛选基础设施的前提下操作基础模型的数据门槛可能低于普遍预期。未来这一先对齐后扩展范式可进一步向更多机器人形态与任务领域拓展通过更精确的手-机器人重定向与物理 grounded 渲染提升合成保真度并迈向更长程的推理与操作智能。研究团队希望这项工作能够推动视觉-语言-动作模型评估标准从领域内基准排名向分布外泛化能力转变从而为真实世界部署提供更为可靠的基础模型能力度量。具身智能世界模型blog https://jinxindeep.github.io/blog/blog2026.html