英伟达让机器人学会“随机应变“:当机械臂遇到突发状况,该怎么办?

📅 2026/6/17 13:49:10
英伟达让机器人学会“随机应变“:当机械臂遇到突发状况,该怎么办?
这项由英伟达NVIDIA与密歇根大学联合开展的研究于2026年6月发布论文编号为arXiv:2606.07723有兴趣深入了解的读者可以通过该编号查询完整论文。**研究背景一个看似简单却让机器人头疼的任务**设想你正在厨房里整理桌面上司交代了一句话把桌上所有东西放进碗里除了红色积木和金枪鱼罐头。 你会怎么做你先扫一眼桌面记住哪些东西该动、哪些不该动然后一件一件搬运。中途如果不小心抓错了东西你会立刻意识到把它放回去再去拿正确的。整个过程行云流水不超过两分钟。对人类来说这不过是件举手之劳的小事。但对今天的机械臂来说这却是一项相当艰难的挑战。它需要理解除了这个否定词需要在拿起第四件物品时还记得第一件放在哪、接下来该拿哪个需要在抓错东西的时候察觉并自我纠正还需要在碗里已经有东西、空间变得拥挤的时候重新调整抓握方式。任何一个环节出问题整个任务就宣告失败。现实世界中的机器人操作任务正是如此——长链条、开放词汇的挑战。所谓开放词汇意思是人类可以用各种各样的自然语言来描述任务而不是只接受固定的指令格式所谓长链条意思是完成任务需要按顺序执行好几步甚至十几步操作前一步的结果直接影响后一步的决策。英伟达和密歇根大学的研究团队为此专门设计了一套系统叫做VoLoAgent并配套推出了一个名为RoboVoLo的测试基准。这篇文章将带你完整走进这项研究。---一、为什么现有机器人系统不够用要理解VoLoAgent的价值先得明白它在解决什么问题。目前机器人控制领域有几类主流方案可以用几种日常场景来类比。第一类叫做视觉-语言-动作模型英文简称VLA。你可以把它想象成一个经过大量训练的厨师他看一眼菜谱语言指令和食材视觉画面然后直接动手做菜输出动作。这类系统的优点是操作精准、动作流畅就像训练有素的厨师切菜姿势非常专业缺点是一旦菜谱写得模糊、食材摆放有变化他就会发呆——因为他没有在操作过程中边想边调整的能力他只能按照训练时见过的模式一路执行到底。第二类叫做代码即策略方法相当于让一个程序员先把整个任务写成一段代码然后机器人按代码执行。好处是逻辑清晰坏处是代码只能调用预先定义好的工具集遇到代码里没有描述的情况就束手无策而且写代码的过程本身也不考虑万一执行失败怎么办。第三类是任务与动作规划TAMP方法类似于给机器人一本详细的作战手册先用符号逻辑规划任务再将抽象动作映射为实际运动。这类方法在需要运用特定领域知识比如化学知识、数学知识时表现不错但在感知层面和灵活恢复方面有明显短板。近年来还出现了VLMVLA分层系统用大型语言视觉模型做上级指挥官用VLA做下级执行员。上级负责规划下级负责动手。这种设计已经比单独使用其中一种强但问题在于一旦规划好整个执行过程就是硬连线的——上级说先拿橙子下级就去拿即便发现自己抓到的是柠檬也不会实时叫停、重新分析。上级和下级之间的沟通是单向的、批量的不是实时双向的。研究团队把这个问题的本质归结为一个概念**物理编排**Physical Orchestration。在虚拟世界里运行的AI助手可以随时暂停世界、慢慢思考因为对话界面会乖乖等你。但机械臂所处的物理世界不会暂停——手臂一直在动物体一直在运动重力时刻在工作。所以一个真正可用的机器人系统必须能够一边动手一边思考在机械臂执行动作的过程中同步监测状态一旦发现偏差立即叫停然后根据当前实际状况重新调整方案。这个监测—叫停—重新规划的完整闭环正是物理编排的核心要求。---二、VoLoAgent是怎么工作的VoLoAgent的设计哲学可以用一个乐队指挥的比喻来理解。乐队里有小提琴手VLA负责精细操作、打击乐手感知工具负责识别物体、钢琴手抓取/放置基础程序负责执行标准动作指挥大型语言视觉模型简称VLM站在中间同时听着所有声部的演奏随时可以打手势让某个声部停下来、调整节奏、或者切换演奏方式。关键在于VoLoAgent里的VLA不再是总指挥而是众多工具中的一个——尽管通常是最常用的那个。VLM才是真正的总指挥它可以在任意时刻中断正在运行的VLA切换到感知工具或者基础抓取程序来处理当前状况然后再切换回来。具体来说这套系统内置了三类工具。第一类是VLA或世界动作模型WAM一种能同时预测未来视频和动作的模型负责连续、流畅的精细操作比如把一个不规则形状的物体稳稳放进碗里。这类工具动作自然、流畅但有时会认错物体。第二类是感知工具包括GroundingDINO能根据文字描述找到图像中的物体、SAM2和SAM3分割工具能精确勾勒出物体的轮廓、以及Molmo2能根据描述指出物体在图像中的位置。这些工具像一组眼科医生专门负责回答这个东西是什么、在哪里的问题。第三类是动作基础程序主要是抓取grasp和放置place两个操作——当VLA执行出错时可以调用这两个更确定性的程序来精准定位并执行单步动作。VoLoAgent的工作流程分为三个阶段像一位厨师拿到一道复杂菜谱时的处理方式。收到任务指令后VLM首先扫一眼当前场景把整个任务分解成有序的子目标序列比如先拿绿色积木→再拿蓝色积木→再拿柠檬→再拿橙子并把这些子目标和初始场景图像存进记忆库。接下来它启动VLA开始执行第一个子目标同时自己也进入监测状态。监测阶段是整个系统的核心创新。VLM以每0.2赫兹的频率大约每5秒一次读取最新的摄像头画面对照当前子目标判断执行状况是继续进行continue、子目标已完成可以进入下一步next_subgoal还是需要进入恢复流程recovery为了做到这一点系统设计了两个快慢记忆层——快记忆层只包含当前画面、当前子目标和最近几步决策读取速度快尽量贴近机械臂动作的时间节奏慢记忆层包含完整任务记忆、场景历史和工具列表只在需要深度决策时才读取避免每次都消耗大量计算资源。恢复阶段处理异常情况。当监测发现问题时正在执行的工具立即暂停机械臂停止运动VLM进入完整的分析流程从以下几个选项中选择最合适的应对方案如果判断刚才的警报是误报就让VLA继续执行如果子目标需要重新规划就重新审视剩余子目标并调整顺序如果VLA拿错了物体就调用grasp工具——先用感知工具精确锁定正确目标的位置再执行精准抓取然后交回给VLA完成后续的接触密集型操作如果放错了位置就调用place工具将物体移到正确位置。这套设计有一个值得专门说说的互补性特质当grasp工具执行完毕后机械臂的末端执行器夹爪已经被精确定位在正确目标附近并且获得了一个清晰的拍摄角度。此时再交给VLA接手VLA就能以极高的成功率完成后续的精细操作——因为最难的找到正确目标这步已经被感知工具解决了VLA只需要发挥它最擅长的灵巧操作能力即可。这就像厨师和助手的配合助手grasp工具负责把食材准确切好、摆到案板上主厨VLA负责最后的烹饪——两者的能力形成互补而不是相互替代。在技术实现上系统采用了多进程分离架构模拟器、编排器、VLA策略服务器和工具服务器各自运行在独立进程中通过网络接口通信。这种设计的好处是各部分互不干扰、可以分别升级替换添加一个新VLA只需要写约200行协议适配代码不需要改动其他任何部分。---三、用来测试的考题RoboVoLo基准光有系统还不够还需要一套能真正检验其能力的测试题。研究团队为此专门构建了RoboVoLo基准包含126个任务分布在4个能力维度、15个任务类别中全部在高保真物理仿真环境中运行基于英伟达Isaac Lab。这套测试题的设计原则是不能用把所有东西都放到同一个地方这样的简单策略蒙混过关每道题都要求真正理解指令。第一个维度叫做常识推理考的是从场景上下文推断隐含意图的能力。以推断类任务为例桌上放着5个一类物品和1个异类物品指令是把一类的放进碗里把那个不同类的留在桌上。机器人需要自己看出哪个是异类而不是靠指令告诉它。工具包类任务要求机器人根据当前情境组合一套配套物品比如早餐桌摆设。恢复类任务是发现并纠正摆放错误。分类类任务是按照容器本身的提示信息比如容器上的标签或形状把物品分类归位。第二个维度叫做记忆跟踪考的是在操作过程中维护状态信息的能力。顺序类任务要求将已经堆叠的积木按照相反的顺序重新堆叠机器人必须在拆开它们之后还记得原来的顺序。回溯类任务更难先把所有积木从容器里取出摆到桌上然后把原来处于上半部分的积木放进指定容器——机器人需要在打乱之后还能回忆起打乱之前各积木的位置。交换类任务要求在多个容器之间循环移动物品类似三杯换豆游戏。第三个维度叫做复杂指代考的是对精细语言描述的理解能力。空间关系类任务使用最左边的、最右边的、碗后面的这样的方位描述。计数类任务使用第二个、第四个这样的序数描述。否定类任务使用除了...之外的所有这样的排除描述。尺寸排序类任务要求将物品按大小分配到不同容器中。第四个维度叫做世界知识考的是将外部知识应用于具体场景的能力。艺术类任务要求用积木拼出一个火柴人图案。化学类任务要求根据化学式知识比如水是H?O将周期表元素积木组合到正确位置。数学类任务要求通过移动数字积木使等式成立。回收分类类任务要求根据材料属性将物品正确投入可回收、可堆肥或垃圾桶中。在场景资产方面研究团队专门为RoboVoLo新增了501个3D物品模型其中包括247个来自英伟达Lightwheel SimReady收藏的家用物品以及254个任务专属资产——118个印有化学元素符号的方块、120个几何艺术形状颜色、尺寸、形状各异以及16个印有数字和运算符号的木质方块。所有模型都带有精确的碰撞几何体和物理属性确保在仿真中的行为接近真实物体。---四、测试结果怎么样研究团队进行了大量实验与多种现有方法进行对比。每个任务运行3次确保不同系统在完全相同的初始条件下进行比较从而保证对比的公平性。对比结果相当清晰。在RoboVoLo四个维度的综合成绩上VoLoAgent完整版取得了约42%的任务成功率而对比方法中最强的独立VLA系统π0.5只有约13%代码即策略方法CaP-X约10%任务与动作规划方法TiPToP约12%。考虑到这些任务对任何现有系统都很难42%已经是相当显著的领先。拆开来看各个维度常识推理维度VoLoAgent完整版达到54.4%比最强基线高出近39个百分点复杂指代维度达到51%比最强基线高出约30个百分点记忆跟踪维度达到36.9%领先约14个百分点世界知识维度达到25%这里领先幅度最小约2个百分点因为TiPToP的符号规划方法在需要精确外部知识的任务上本就有优势。通过对自身进行三个版本的对比研究团队揭示了各个组件的贡献。仅用感知工具基础抓取程序不用VLA版本成功率约18%远不如完整版——说明VLA的精细操作能力是不可缺少的。仅用VLA由VLM文字引导不用其他工具版本成功率约35%接近但仍低于完整版——说明感知工具和基础程序在关键时刻的介入确实有价值。两者结合的完整版约42%是三者中最高的也验证了互补性设计的有效性。研究团队还系统分析了失败原因这部分分析同样具有参考价值。从世界层面失败即机械臂实际执行层面的错误来看π0.5在90次测试中有86次发生了失败其中只有11次得到了恢复恢复率13%VoLoAgent只有70次发生失败且其中38次得到了恢复恢复率54%——不仅出错更少出错后的自我修复能力也强得多。具体失败类型包括抓到了错误的物体最常见、放到了错误的位置以及机械臂卡住不动。从VLM层面失败即智能决策本身的错误来看最大的问题是完成度判断——VLM有时会错误地认为子目标已经完成把橙子放进碗里之前就说放好了或者物体明明已经到位却还认为未完成。这类错误在所有测试过的语言视觉模型中都占绝大多数占总错误量的67%以上。相比之下规划错误任务分解本身出错和工具调用错误都很少见每90次测试中不超过9次和12次。研究团队还对比了不同语言视觉模型作为指挥时的表现差异。使用Claude Opus 4.6时每90次测试共出现102次VLM层面失败使用GPT-5.5时出现241次使用Gemini 2.5 Flash时出现263次使用开源的Qwen3-VL-8B时高达456次——比Claude多出近四倍与此同时Qwen系统的整体任务成功率也相应下降到约20%。这说明指挥的能力对整个系统至关重要弱VLM作为指挥时再好的工具也难以充分发挥。将VLA部分替换为其他模型π0-FAST、MolmoBot、DreamZero时完整版系统在每个底层VLA上都获得了2到6倍的性能提升——说明编排框架本身具有很好的通用性不依赖于特定的VLA模型。---五、真实机械臂上的表现如何仿真成绩再好如果在真实物理环境中跑不通也只是纸上谈兵。研究团队在一台真实的Franka FR3机械臂上进行了验证实验使用真实的物理道具从RoboVoLo的任务池中挑选了14个可以在实验室中复现的任务每个任务做3次四个系统各进行42次测试共168次。结果是π0.5的成功率为14.3%VoLoAgent完整版的成功率为42.9%提升了整整三倍。值得注意的是仅用感知工具基础抓取程序版本的成功率达到45.2%仅用VLAVLM引导版本达到40.5%三者之间的置信区间有相当大的重叠。研究团队指出要在真实机器人实验中区分这三个变体需要更大规模的测试更多任务、更多次重复才能达到统计显著性。定性观察显示抓取工具在真实环境中表现比仿真中更好可能是因为真实物体的接触力学与仿真存在差异而视觉感知工具在真实场景中反而更准确。---六、系统还有哪些局限与未来方向研究团队没有回避这套系统的不足之处。最核心的问题是监测延迟。云端VLM每次调用需要1到5秒意味着机械臂动作发生后最多5秒才能收到反馈。对于快速发生的失败比如物体瞬间滑落这个反应速度可能来不及。未来的方向是开发轻量、高速的本地监测模块专门负责完成度和失败检测将响应时间压缩到毫秒级。第二个问题是完成度判断的系统性弱点。正如失败分析所揭示的这是当前所有VLM都面临的共同短板需要专门的训练数据和评估方法来改进。第三个问题是形态限制。这套系统目前只验证了单臂平行夹爪机械臂。理论上框架本身是与形态无关的可以扩展到双臂协作、灵巧手或移动机器人但抓取和放置的基础程序需要针对新的运动学和接触模型重新实现。此外当前的安全等待策略是简单地停止手臂这对于需要持续运动才能保持平衡的形态比如双足人形机器人并不适用。---说到底这项研究解决的是一个长期困扰机器人研究者的根本性问题如何让机器人在复杂、动态、语言描述多变的环境中像人一样灵活应对。VoLoAgent给出的答案是不要把任何单一能力无论是VLA还是VLM当作万能钥匙而是把它们都变成可以按需调用、随时中断和切换的工具由一个具备全局视野的指挥来统筹协调。这个思路本身以及对物理编排这一概念的清晰定义或许是这项工作最具启发性的贡献。RoboVoLo基准的发布同样意义重大——它填补了现有评估工具在长链条、开放词汇任务上的空白为未来的研究提供了一把更有区分度的尺子。126个任务的综合成功率42%意味着在这把尺子面前还有大量空间等待未来的系统去突破。感兴趣的读者可以通过arXiv编号2606.07723找到完整论文项目主页地址为 chicychen.github.io/VoLo代码和基准将随论文公开发布。---QAQ1VoLoAgent和普通机械臂控制系统的核心区别是什么A普通机械臂系统通常把视觉语言动作模型VLA当作唯一的执行核心一旦启动就按照训练好的模式一路走到底中途无法实时感知并纠正错误。VoLoAgent的不同之处在于它把VLA当作众多可调用工具之一由大型语言视觉模型VLM担任指挥在机械臂运动过程中持续监测执行状态一旦发现抓错物体或卡住不动立即暂停并调用感知工具或基础抓取程序来纠正错误然后再继续。这个监测—叫停—恢复的完整闭环是其核心创新所在。Q2RoboVoLo基准测试里最难的任务类型是哪些A从测试结果来看记忆跟踪中的交换类任务和世界知识中的数学类任务是所有系统普遍失败率最高的。交换任务要求机器人在打乱物品位置之后还能记住原始配置并精确还原对状态跟踪能力要求极高数学任务要求机器人理解数字和运算符号之间的逻辑关系并移动积木使等式成立不仅需要数学知识还需要精确的空间操作。即使是VoLoAgent完整版在这两类任务上的成功率也在个位数或极低的两位数范围内。Q3VoLoAgent的监测频率为什么只有0.2赫兹这会影响恢复速度吗A0.2赫兹意味着大约每5秒进行一次状态检查这个频率是在权衡云端VLM每次调用耗时1到5秒与监测实时性之后的折中选择。对于机械臂正常动作的节奏来说这个频率基本够用但对于快速发生的失败例如物体瞬间滑落确实可能反应不及时。研究团队在论文中明确指出这是当前系统的主要局限之一未来方向是开发专门的轻量本地监测模块将响应速度提升一个数量级从而更及时地捕捉快速失败事件。