VLA 的 Co-training:通过多源数据提升机器人泛化能力

📅 2026/6/15 21:42:19
VLA 的 Co-training:通过多源数据提升机器人泛化能力
一、机器人数据无法单独支撑通用 VLA存在问题机器人数据和互联网视觉语言数据教给模型的东西并不相同。一条常见的机器人轨迹通常包含以下信息当前相机画面一条任务指令机器人当前状态下一步动作或者一段连续动作。这类数据能够教会模型机械臂应该怎么动却很难覆盖完整的视觉和语言知识。一个机器人数据集可能包含几百种物体、几千条指令和数十万个操作片段。这个规模对于机器人研究来说已经不小但和互联网图文数据相比仍然有限。只在机器人数据上继续训练后模型经常会出现三类变化动作预测能力提高原有的视觉问答和语义理解能力下降面对训练集之外的物体、指令和场景时容易失效。以上现象可以理解为能力偏移。模型为了适应狭窄的机器人数据分布逐渐丢掉预训练阶段学到的通用知识它可能更擅长复现训练数据中的动作但不再像原来那样理解丰富的物体、场景和语言表达。VLA 中的 co-training 正是为了解决这个问题其核心思路可以概括为模型在学习机器人动作的同时继续使用其他类型的数据维持和增强视觉、语言以及跨场景理解能力。RT-2 是这一思路的代表工作之一。它将机器人动作离散化为类似文本的 token然后把机器人任务和视觉问答等互联网任务放在同一个模型中训练。普通视觉语言任务可以写成图像一张桌面照片 问题桌上有几个苹果 输出3机器人任务则可以写成图像机器人第一视角画面 指令拿起桌上的苹果 输出1 128 91 241 5 101 127 217对模型来说这两类任务最终都变成了同一种形式根据图像和文本输入预测一串 token。RT-2 证明了视觉语言数据和机器人数据可以共同训练但它没有完全回答一个更实际的问题VLA 应该加入什么辅助数据各类辅助数据分别能带来什么效果论文《A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation》https://arxiv.org/pdf/2602.01067对这个问题进行了系统研究。二、论文系统比较了五类 Co-training 数据这篇论文的实验规模很大作者使用了约 4000 小时的机器人及人类操作数据、5000 万条视觉语言样本训练了 89 个机器人策略并进行了超过 5.8 万次仿真测试和 2835 次真实机器人测试。论文主要比较了五类 co-training 数据标准视觉语言数据带密集语言标注的机器人轨迹跨机器人本体数据人类操作视频离散机器人动作 token。这五类数据看起来都能为 VLA 提供额外信息但实验结果表明它们的作用并不相同。2.1、标准视觉语言数据保留了模型的通用知识标准视觉语言数据就是 VLM 预训练中常见的图像描述、视觉问答和视觉推理数据。这类数据并不直接教机器人输出动作但能够维持模型对物体、场景、属性和语言的理解。假设机器人训练数据中只出现了马克杯而测试场景中出现了玻璃杯模型能不能识别这些物体并理解它们的用途很大程度上取决于视觉语言预训练阶段获得的知识是否被保留下来。如果机器人训练阶段完全停止使用视觉语言数据模型可能会逐渐遗忘这些知识。论文实验发现加入标准视觉语言数据后模型在以下方面都有改善分布外场景中的操作能力未见任务上的泛化能力对不同语言指令的理解能力VLM 主干原有的视觉语言能力。这个结果说明视觉语言数据的作用不只是防止模型遗忘在视觉语言任务中学到的物体语义、场景知识和语言理解能力确实可以迁移到机器人控制任务。2.2、密集语言标注帮助模型理解任务阶段普通机器人轨迹通常只有一句比较粗粒度的任务指令。例如把盘子放进架子里。这条指令描述了最终目标但没有告诉模型任务执行到哪一步。带密集语言标注的轨迹会为中间过程增加更加细致的描述接近盘子 调整夹爪方向 夹住盘子边缘 抬起盘子 移动到架子上方 将盘子插入架子 松开夹爪这样做相当于把一个长任务拆成多个具有明确语义的 subtask它能够帮助模型建立三者之间的对应关系当前视觉状态 任务所处阶段 下一步应该执行的动作这类数据对长流程任务尤其重要。长任务失败往往不是因为模型完全不会执行某个动作而是因为模型无法判断当前已经完成了什么、接下来应该做什么。例如模型可能已经抓住盘子但仍然重复执行抓取动作也可能还没有稳定抓取就提前开始移动。subtask 标注可以让模型更清楚地理解任务进度。论文结果表明密集语言标注能够改善模型的语言指令跟随能力和任务泛化能力。不过这并不意味着模型在推理阶段必须先输出一大段自然语言分析。模型可以在内部学习任务阶段不一定需要把每一步判断都输出成文字。2.3、跨机器人本体数据提供了可迁移的操作经验不同机器人的硬件结构可能差别很大例如单臂机器人和双臂机器人两指夹爪和灵巧手固定机械臂和移动操作机器人不同关节数量的机械臂不同控制频率和动作空间。从直觉上看不同机器人的动作表示并不一致把它们放在一起训练可能会互相干扰。但论文发现跨机器人本体数据是效果比较稳定的一类 co-training 数据。原因在于不同机器人虽然使用不同的关节和控制方式但它们执行任务时仍然共享大量知识例如应该抓取哪个物体应该从哪个方向接近什么位置适合下手当前处于抓取、搬运还是放置阶段哪些视觉变化代表任务正在取得进展一个操作失败后应该怎样重新尝试。也就是说动作层可能不同但视觉理解、任务理解和操作逻辑是可以共享的。模型不一定需要直接复制另一台机器人的关节动作但可以从另一台机器人的轨迹中学会这类任务通常应该按照什么过程完成。论文实验表明跨本体机器人数据能够稳定改善模型在分布变化和新任务上的表现。说明 VLA 的训练数据不必全部来自最终部署的目标机器人其他机器人平台上的数据只要经过合理的动作表示和本体区分也能够为目标机器人提供有价值的操作经验。2.4、人类操作视频扩展了场景覆盖范围人类操作视频具有两个明显优势数量容易扩大场景和物体种类更加丰富。相比机器人轨迹人类视频的采集成本更低。普通人可以在家庭、办公室、厨房和工厂等环境中完成大量操作。因此人类视频一直被认为是扩展 VLA 数据规模的重要方向。不过人类视频也存在明显问题人手和机器人夹爪的结构不同人类动作无法直接转换为机器人关节控制人类动作速度和机器人控制频率不同拍摄视角和机器人第一视角可能不一致普通视频通常没有精确的动作标签人类可以完成的动作未必适合机器人执行。因此人类视频更适合为模型提供以下信息物体之间如何交互一个任务通常包含哪些阶段操作前后场景会发生什么变化人类如何选择目标物体和操作顺序。论文将人类视频作为一种 co-training 数据进行了评估。结果表明人类视频具有潜力但实际效果更加依赖数据处理方式和训练设计。与标准视觉语言数据和跨本体机器人数据相比人类视频带来的提升没有那么稳定。模型还需要解决人类动作和机器人动作之间的表征差异。常见的处理方法包括从视频中提取目标状态预测物体运动轨迹学习人类和机器人共享的潜在动作表示将完整任务拆成高层操作阶段只利用视频中的视觉变化不直接监督底层动作。2.5、离散动作 Token 主要解决输出接口问题一些 VLA 模型会把连续机器人动作量化成离散 token。例如RT-2、OpenVLA 将机械臂某个动作维度的取值范围划分成 256 个区间机器人动作就可以和文本 token 一样通过自回归语言模型进行预测。动作 token 化的直接好处是它能够复用大语言模型原有的训练框架。模型不再需要完全独立的连续动作输出接口而是可以像生成文字一样生成动作序列。不过这篇论文关注的不只是动作能否离散化而是离散动作 token 能否作为一种额外的 co-training 数据形式为模型带来更多能力实验结果并没有显示出明显提升。几种离散动作 token 方案都没有稳定提高机器人控制性能。这并不是说动作 token 化完全没有价值而是说明改变动作编码方式不等于增加新的任务知识。如果一份数据没有提供新的物体、新的场景、新的操作方式或者新的语言信息只是把原本的连续动作换成离散 token那么它能够带来的额外收益自然有限。动作 token 化主要解决的是模型接口统一问题而不是机器人泛化问题。三、实验结果证明多源数据具有互补作用论文进行了大量数据组合实验。整体结果可以归纳为四个方面。3.1、视觉语言数据是 VLA 训练中的必要组成部分不少 VLA 训练流程都采用加载预训练 VLM - 只使用机器人数据进行微调 - 得到动作模型。这种方法实现起来比较简单但存在模型在机器人数据上训练得越久越可能破坏原有的视觉语言能力的问题。论文发现只使用机器人数据训练会明显降低 VLM 主干的视觉语言理解能力。重新加入有效的视觉语言 co-training 数据后这部分能力能够得到恢复。因此在大规模机器人训练中保留一定比例的视觉语言任务不是为了让训练目标看起来更加丰富而是在保护模型最重要的知识基础。3.2、不同类型的数据可以带来累积收益不同 co-training 数据解决的问题并不相同。标准视觉语言数据主要补充物体知识场景知识属性理解语言表达能力。跨本体机器人数据主要补充操作经验任务覆盖范围抓取和放置策略不同环境中的失败与恢复方式。密集语言标注主要补充任务阶段信息长流程任务结构视觉状态与动作阶段之间的对应关系。人类视频主要补充更广泛的物体和场景人类操作中的任务过程操作前后的视觉变化。由于这些数据提供的信息并不重复组合使用时可以产生累积收益。此外数据采样比例、训练顺序、损失权重和不同模态之间的平衡同样会直接影响最终效果。3.3、Co-training 提高了模型的小样本适配能力论文还研究了模型面对未见过的长程灵巧操作任务时的微调效果。实验结果显示经过有效 co-training 的模型可以使用更少的目标任务数据完成快速适配。一个完全从头训练的机器人模型需要同时学习目标物体是什么指令表达的任务目标是什么应该怎样接近物体应该怎样抓取任务包含哪些阶段当前机器人应该输出什么动作。而经过 co-training 后模型已经提前学到了大量语言和操作先验。此时进行微调主要是在补充当前机器人应该使用什么具体动作完成任务。因此co-training 的价值不仅体现在基础模型的零样本泛化上也体现在后续任务的低成本适配上。3.4、显式思维链没有稳定改善底层控制不少 VLA 工作会为模型加入显式推理过程。模型可能先输出我需要找到目标物体、目标物体位于桌面左侧、我应该先调整机械臂方向、接下来抓住物体并移动到目标区域然后再生成机器人动作。该设计看起来合理因为人类在执行复杂任务时也会进行规划。但论文实验发现让动作生成显式依赖 co-training 数据中学习到的思维链并没有在仿真测试中带来性能提升。合理的解释是自然语言形式的显式推理文本不一定适合作为底层动作控制的中间表示。四、Co-training 的工程重点在于数据互补从工程角度可以得到几条比较实用的经验。4.1、机器人微调阶段应该保留视觉语言数据即使最终任务只要求模型输出动作也不应该在机器人微调阶段完全删除原有的视觉语言数据。训练过程中可以保留一定比例的图像描述视觉问答物体属性识别空间关系判断场景理解任务。减少 VLM 主干的能力退化。否则模型可能逐渐变成一个只会复现训练轨迹的动作拟合器在已知任务上表现不错但换一个物体、背景或者指令表达就容易失败。4.2、数据扩展应该优先覆盖新任务和新场景扩充机器人数据时不应该只追求轨迹数量。如果新增的十万条轨迹都来自同一台机器人、同一个桌面和同一批物体那么这些数据提供的新信息可能很少。相比之下以下数据通常更有价值新物体新背景新任务新机器人本体新相机视角新的失败情况不同方式表达的语言指令。VLA 泛化能力取决于数据覆盖的范围而不只是样本总数。只要模型能够识别机器人本体并合理处理不同动作空间这些数据就可以共享视觉和操作知识。4.3、长流程任务适合增加 subtask 描述对于包含多个操作步骤的任务可以在训练数据中增加 subtask 标注。实际工程中可以采用以下方式生成初始标注根据夹爪开合状态切分轨迹根据物体位姿变化检测操作阶段使用 VLM 生成视频片段描述根据任务脚本自动生成阶段标签对自动标注结果进行人工抽样检查。4.4、人类视频需要经过任务和动作对齐人类视频不能简单地当作机器人动作数据使用更合理的方法是先从中提取机器人能够利用的信息例如目标物体操作顺序物体运动轨迹操作后的目标状态手与物体的接触关系任务阶段变化。然后再通过目标状态预测、视频表征学习或者跨本体映射将这些信息迁移到机器人策略中。4.5、动作表示不能代替数据知识动作 token 化能够统一语言和动作的输出接口但不能解决所有问题。无论动作使用连续值、离散 token、扩散模型还是 flow matching模型最终的泛化能力仍然取决于训练数据中包含了什么。如果数据没有覆盖新的任务、物体和环境那么更换动作表示通常只能改善优化方式无法凭空产生新的机器人能力。