【具身智能】一文搞懂隐式端到端 VLA从视觉编码到动作生成的技术演进

📅 2026/7/2 5:18:40
【具身智能】一文搞懂隐式端到端 VLA从视觉编码到动作生成的技术演进
1. 什么是隐式端到端 VLAVLAVision-Language-Action视觉-语言-动作模型以单帧/多帧图像与自然语言指令为输入直接输出机器人控制指令包括关节角度、末端位姿、夹爪开关状态等。所谓隐式端到端是指从视觉感知到动作输出的完整映射链路全部封装于可微神经网络中中间不进行显式的未来视觉序列预测——即“输入感知信号 → 输出控制动作”中间映射过程由网络端到端学习完成对外呈现为“黑盒”。与之相对的显式路线会先通过世界模型显式生成机械臂运动的未来图像/视频序列再基于预测画面解码动作序列核心思路是“先预判场景演化再规划运动轨迹”。隐式路线则依托模型容量与数据规模直接构建感知到控制的端到端映射省去中间显式预测环节链路更简洁、推理延迟更低。本文全程聚焦隐式技术路线。工程层面一套标准的隐式 VLA 系统可拆解为三大核心模块视觉编码器 → 视觉-语言融合模块 → 动作输出头。2. 视觉特征提取视觉编码器是 VLA 系统的感知入口其选型本质是在特征精度、推理速度、跨模态对齐难度三者间做权衡。2.1 主流选型与适用场景入门基准ResNet-18。机械臂操作任务的动作空间复杂度有限无特殊需求时 ResNet-18 的特征精度足以支撑任务同时具备推理速度快、显存占用低的优势是 ACT、Diffusion Policy 等经典工作的默认选择。极致效率EfficientNet 系列。以 EfficientNet-B3 为代表在精度与算力间实现更优平衡常与 FiLM 等轻量化融合方案搭配适配低算力部署场景。跨模态对齐优先CLIP。视觉与文本共享同一嵌入空间天然降低跨模态融合的难度是早期 VLA 跨模态方案的主流选择。VLM 生态适配SigLIP。SigLIP 以 sigmoid 损失替代 softmax 对比损失在小 batch 训练下稳定性更优目前已成为新一代多模态大模型的标配视觉基座。2.2 机器人专用预训练视觉表征通用图像分类预训练的特征更侧重“物体类别识别”而机器人操作任务更需要服务于动作决策的几何与空间特征二者存在天然的目标偏差。为此学界推出了一系列面向机器人场景的专用预训练表征R3M在 Ego4D 等大规模人类第一人称活动视频上进行对比学习提取对动作决策更友好的视觉表征更适配操作任务的空间理解需求。VC-1基于海量第一人称视频与图像数据预训练的通用视觉基础模型具备更强的跨场景泛化能力。Voltron以语言为监督信号的表征学习方案通过文本引导模型学习更贴合操作任务的视觉特征。TheiaCoRL 2024将 DINOv2、CLIP、ViT 等多个大型视觉基础模型的能力蒸馏至单一轻量化模型推理时仅需运行一次小模型即可获得多源“专家级”特征在算力受限场景下具备极高的性价比。核心结论对于机械臂操作类任务物体位置、抓取姿态等空间几何信息的优先级远高于物体类别的语义信息——这也解释了为何纯语义导向的 CLIP 表征在部分操作任务上表现弱于 R3M、VC-1 这类动作导向的预训练表征。2.3 Token 降维工程落地的核心优化点ViT、Voltron 等 Transformer 结构视觉编码器会输出长度可达数百的 Token 序列若直接输入下游策略网络会带来极高的显存与算力开销因此必须进行序列下采样Perceiver 交叉注意力当前主流方案。通过一组可学习的 Query Token以交叉注意力机制“查询”原始图像 Token将长度为 N 的图像序列压缩为长度为 M 的特征序列M ≪ N在大幅降低序列长度的同时保留核心空间与语义信息。2.4 多帧输入与时序感知经典小模型方案中RT-1原生支持多帧图像输入可捕捉时序动态信息适配对运动连贯性有要求的任务。大模型路线中RT-2、OpenVLA 等方案直接复用多模态大模型的视觉基座天然具备多帧融合与全局语义理解能力。2.5 2024–2026 技术演进方向视觉编码器的技术路线正快速向“VLM 原生视觉基座”收敛SigLIP、DINOv2、SigLIP2已成为主流选型Theia 式的多专家蒸馏方案仍在效率敏感场景占据一席之地。与此同时3D 感知编码器开始成为新的演进方向SpatialVLA显式注入深度、高度、俯仰角等 3D 空间先验3D-VLA直接以点云、3D 场景表征替代纯 2D 像素输入让模型获得原生空间推理能力在需要理解物体相对位置、复杂空间关系的任务上实现显著性能提升。3. 视觉与语言融合3.1 轻量化模型路线小模型场景下视觉与语言的融合以“轻量调制”为核心思路避免引入过高的算力开销FiLMFeature-wise Linear Modulation核心是通过语言特征生成仿射变换参数对视觉特征进行逐通道调制。语言向量经过轻量网络输出增益参数γ\gammaγ与偏置参数β\betaβ再对视觉特征进行逐通道的缩放与平移yγ⊙xβ,(γ,β)fθ(text)y \gamma \odot x \beta, \quad (\gamma, \beta) f_\theta(\text{text})yγ⊙xβ,(γ,β)fθ​(text)经典搭配为FiLM EfficientNet-B3通过语言条件自适应强化视觉特征中与指令相关的通道。FiLM 的本质是条件归一化以语言信号调制视觉特征的分布而非简单的特征拼接。GNFactor以交叉注意力与可学习 Query 特征为核心通过因子化方式将语言条件注入视觉 Token实现细粒度的跨模态对齐。Perceiver交叉注意力机制同时承担“序列压缩”与“跨模态融合”双重功能架构上更简洁高效。3.2 大模型路线多模态大模型MLLM原生具备视觉-语言对齐能力V-L 融合能力随基座能力同步提升无需额外设计融合模块。基座选型上PaLI-Gemma是 2024 年 VLA 工作的主流起点——它将 SigLIP 视觉塔与 Gemma 大语言模型深度结合兼顾性能与参数量效率是性价比极高的 VLM 基座π0 等工作均基于此构建。2024 年下半年起PaliGemma 2、Gemma 3 相继发布视觉与语言能力进一步升级。2025 年起大厂自研具身专用基座陆续落地闭源侧Google DeepMind 的Gemini Robotics基于 Gemini 基座打造侧重长程任务推理与具身常识Figure AI 的Helix面向人形机器人全身控制实现量产部署字节跳动的GR-2 / GR-3延续“大规模视频预训练 机器人数据微调”的技术范式。开源侧基座从 Llama-2OpenVLA逐步升级为Llama-3、Qwen2.5-VL等新一代模型性能与生态持续完善。4. V→A 映射从感知到控制的核心链路这是隐式 VLA 最核心的技术问题如何从高维视觉信号中筛选出与当前动作决策相关的信息并精准映射到低维动作空间。在小模型架构中这一过程通过交叉注意力显式实现——Query 来自语言指令与动作上下文Key/Value 来自视觉 Token在大模型架构中这一映射则隐含在 LLM 的自注意力机制中由模型端到端学习。2024–2025 年该方向的研究主要沿着两条路径推进注意力可解释性研究通过可视化 VLA 内部的交叉注意力热力图定位模型决策时的视觉关注区域。研究发现即使是大规模 VLA 模型也存在“关注区域偏离目标”的失效模式为模型优化提供了可解释性依据。3D 空间表征显式注入与其依赖模型从 2D 像素中自发学习几何规律不如直接显式注入空间先验——这正是 SpatialVLA、3D-VLA、DexVLA 等工作的核心动机也是突破 2D 感知天花板的关键路径。5. 隐式 VLA 的技术分类5.1 按模型参数量划分量级划分代表模型核心特点1B 以上大参数量 VLAOpenVLA、RT-2、π0/π0.5、RDT-1B、RoboFlamingo、GR-2/3、Helix、Gemini Robotics泛化能力强支持跨任务、跨本体迁移部署需配合推理加速方案1B 以下轻量化 VLAOcto、MDT、RT-1、TinyVLA部署门槛低支持本地实时推理通过架构优化与数据效率提升弥补参数量差距其中MDTMasked Diffusion Transformer解决了行业核心痛点视觉-动作配对数据稀缺时如何保证模型效果——通过掩码重建与扩散学习范式大幅提升数据利用效率。5.2 按动作生成架构划分技术路线代表模型动作生成方式Transformer 自回归路线OpenVLA、RT-2、RT-1、RoboFlamingo、Octo、CogACT动作离散化后以自回归方式逐 Token 生成扩散生成路线RDT、MDT、π0、Diffusion Policy、Diff-VLA通过去噪/流匹配生成连续动作分布Transformer 派将连续动作离散化为 Token如 256 个区间可直接复用 LLM 的训练与推理范式但精度存在天然上限离散化会损失精细控制的维度。扩散派天然输出连续、多模态的动作分布更适配“存在多种合理动作解”的复杂任务代价是推理需要多步去噪延迟更高。π0采用的流匹配Flow Matching方案作为扩散模型的连续归一化流变体推理速度与稳定性均优于传统 DDPM目前已成为扩散路线的事实标准。5.3 2024–2026架构走向趋同近两年的 VLA 工作在架构设计上逐渐形成统一范式CogACT、π0、Diff-VLA、VPP、Moto 等工作均遵循相似的设计思路这一趋同在 2025–2026 年得到充分验证趋同点 1VLM 通用基座 轻量化动作专家。几乎所有新方案均基于成熟 VLM 基座构建仅针对动作输出头进行专项训练π0 的“VLM 基座 流匹配动作专家”成为行业模板。趋同点 2动作生成分片化Action Chunk。单次预测输出未来 N 步动作序列而非单步动作该思路源自 ACT目前已成为行业共识——可有效提升动作的平滑性降低单步预测的累积误差。趋同点 3跨本体Cross-Embodiment泛化。π0.5、GR-2、Open X-Embodiment 后续工作均以“单一模型控制多种形态机器人”为核心目标提升模型的复用价值。趋同点 4视频/世界模型预训练。GR 系列基于大规模互联网视频进行世界模型预训练再迁移至机器人场景Gemini Robotics-ER 将“理解物理世界演化规律”作为具身预训练的核心目标。关键技术转折连续动作输出的回归OpenVLA 采用的离散动作方案因精度瓶颈受到诟病后OpenVLA-OFT2024 年末改用回归头直接输出连续动作实现精度大幅提升与此同时FASTFast Action Sequence Tokenization2024借鉴 BPE 分词思路将动作序列压缩为更短的 Token 串让自回归模型也能高效生成连续动作分片。目前FAST 自回归与流匹配 扩散两条路线正并行演进持续优化连续动作生成的效率与精度。2025 年代表性技术进展模型名称核心技术贡献π0.5Physical Intelligence实现强跨本体泛化可零样本迁移至未见过的机器人平台OpenVLA-OFT连续回归动作头 优化微调策略解决原生 OpenVLA 的精度瓶颈CogACT统一认知推理与动作执行强调 VLM 与动作头的协同设计SpatialVLA / 3D-VLA显式注入 3D 空间先验大幅提升空间推理与操作精度FAST高效动作序列分词实现自回归路线的速度与精度突破Gemini Robotics大厂自研具身专用基座具备强泛化能力与长程任务推理能力Helix面向人形机器人全身控制实现量产级部署落地GR-2 / GR-3迭代大规模视频预训练范式强化世界模型迁移能力2026 年上半年从“能力展示”走向“实用落地”进入 2026 年隐式 VLA 领域的竞争焦点发生明显转移不再单纯比拼基座大小和榜单刷分而是围绕部署效率、全身控制、工业可靠性、潜空间推理四个方向展开。ICLR 2026、ICRA 2026 两大顶会集中涌现了一批实用导向的工作产业界也密集发布落地级模型且全部严格遵循隐式端到端的技术范式。产业界纯隐式 VLA 代表模型名称发布方发布时间核心特点隐式合规性说明Xiaomi-Robotics-0小米2026.0247 亿参数视觉语言理解与实时执行一体化面向人形机器人整机控制标准端到端 VLA 架构直接输出全身关节控制指令无中间显式预测环节Lingbot-VLA蚂蚁灵波2026.01侧重跨本体泛化在 GM-100 基准上成功率提升 15.7%基于开源 VLM 基座微调动作头纯隐式动作映射是典型的大模型路线隐式 VLAUnifoLM-VLA-0宇树科技2026.01从图文理解向具身大脑演进适配四足与双臂复合平台端到端统一潜空间映射直接输出多本体动作指令无显式中间层FabriX优艾智合2026.06工业场景专用 VLA引入先验引导层与双回路校验面向产线柔性装配集群调度工业先验以约束蒸馏的形式注入训练过程推理时仍为端到端直接输出动作属于「带约束的隐式 VLA」学术界纯隐式 VLA 代表WholeBodyVLAICLR 2026首个全身行走-操作一体化的隐式 VLA 框架。通过统一潜空间学习将视觉语义直接映射为双臂动作行走指令底层搭配 RL 底层控制器执行全程无显式规划或轨迹预测是 2026 年人形全身隐式 VLA 的标杆工作。PhysiFlowICRA 2026上海交大物理感知的人形全身 VLA。将多体动力学约束以损失函数的形式嵌入流匹配训练物理先验只做正则约束不构成显式中间输出动作生成仍为隐式端到端的流匹配范式。DynamicVLA面向动态场景的轻量化隐式 VLA总参数量仅 430M。提出连续推理Continuous Inference与潜在感知动作流LAAS机制在不引入显式预测的前提下解决推理延迟导致的时序错位是小模型隐式路线的重要工程优化。PixelVLA首个支持像素级多模态提示的隐式 VLA。同时接受文本与像素级视觉提示直接输出精细操作动作配套 16 万像素级标注数据集 Pixel-160K无显式中间表征。ViTRA微软亚研院 清华2026.06纯人类真实生活视频预训练的隐式 VLA 框架。通过视频数据学习操作先验少量机器人数据微调即可直接输出动作无显式世界模型预测环节。LaST₀北京大学2026潜在时空思维链隐式 VLA。将推理过程压缩在 latent 空间中完成不显式输出文本规划或图像预测实现“慢思考、快执行”的双专家架构属于隐式路线内部的推理增强未打破端到端黑盒边界。SimpleVLA-RLICLR 2026用强化学习扩展隐式 VLA 的训练规模突破监督微调的数据依赖动作映射仍为端到端隐式。VLA-ForgetACL 2026面向隐式 VLA 的遗忘学习框架解决定向行为遗忘与安全合规问题不改变模型的隐式端到端架构。混合架构隐式路线的演进边界另有一类模型以隐式端到端为核心执行链路但在高层增加了轻量显式辅助模块用于降低动作歧义它们与“先显式生成未来画面再解动作”的纯显式路线仍有本质区别可视为隐式路线的演进延伸。典型代表为智元 AlphaBrain / ACoT-VLA 系列显式部分EAR 模块生成粗粒度、稀疏的动作参考草图仅为轨迹先验不是未来画面用于引导动作生成隐式部分IAR 模块从 VLM 特征中提取隐式动作先验最终 AGP 模块融合两者输出精确动作定位属于隐式 VLA 吸收了显式动作先验的混合演进核心执行链路仍为端到端可微没有脱离 VLA 的大框架。而以VisicsVLOA 架构为代表的方案中间加入了显式的物体 3D 动态轨迹作为独立接口上层世界模型先预演物体运动、下层操作模型再转动作属于典型的显式/半显式分层架构不在本文隐式 VLA 的讨论范围内。2026 年正在发生的三个结构性变化隐式框架内吸收推理能力从“纯黑盒”走向潜空间认知2025 年之前隐式 VLA 基本是“感知直出动作”的单层映射。2026 年起LaST₀ 等工作证明可以在不打破黑盒、不输出显式中间结果的前提下在潜在空间内完成时序推理与任务拆解让隐式模型也具备长程任务规划能力。纯隐式路线正在从“条件反射式映射”升级为“潜空间思考式映射”。控制范围从机械臂升级为人形全身端到端2025 年 VLA 主要验证机械臂操作2026 年重心全面上移到人形机器人全身控制。WholeBodyVLA、PhysiFlow、AlphaBrain 等工作均证明端到端隐式 VLA 完全可以承载行走、平衡、操作、重载推行等全身复合任务且效果优于传统分层控制。这标志着 VLA 从“机械臂大脑”升级为“整个人形机器人的大脑”。工业 VLA 独立成军可靠性压倒一切工业场景不再满足于实验室级成功率开始出现专门面向产线的隐式 VLA 变种。FabriX 代表了工业 VLA 的典型设计思路先验引导层为扩散动作生成定向双回路逻辑校验层做安全兜底赋予模型自主诊断与故障恢复能力——工业 VLA 的核心 KPI 已经从“任务成功率”变成“连续无故障运行时长”。6. 总结隐式端到端 VLA 的技术演进可浓缩为一条清晰的主线视觉编码器从 ResNet-18 等轻量化 CNN逐步收敛为 VLM 原生的 SigLIP/DINOv2 视觉基座视觉-语言融合从 FiLM、Perceiver 等定制化模块演变为 VLM 原生的跨模态对齐能力动作生成则从离散自回归与扩散模型的双线竞争逐步统一为“VLM 通用基座 轻量化动作专家”的标准范式。而 2025–2026 年的技术新叙事正由跨本体泛化、3D 空间先验、视频/世界模型预训练三大方向共同推动——它们正在重塑 VLA 的技术模板让端到端模型从“完成单一操作任务”逐步走向“适配多形态机器人、理解真实物理世界、完成长程复杂任务”的具身智能目标。站在 2026 年中回望VLA 的下一个阶段已经清晰架构趋同之后竞争下沉到场景与系统层面。纯模型架构创新的边际收益在递减而“潜空间推理、全身控制、工业可靠性”这三个 2026 年涌现的新方向正在重新定义隐式端到端 VLA 的技术边界与价值上限。