从大语言模型到具身智能的完整技术路线一句话理解VLA如果LLM解决的是怎么对话VLM解决的是怎么看懂那么VLA要解决的就是——看见之后怎么行动。适用读者零基础无AI/机器人背景要求。本文从最基础的概念讲起逐步构建完整的VLA知识体系。目录第一篇基础篇——理解VLA的前世今生第1章 从ChatGPT说起AI的三个阶段第2章 什么是VLA一张图看懂第3章 VLA的前置知识LLM、VLM、机器人学第二篇技术篇——VLA的核心架构与原理第4章 VLA的总体架构第5章 视觉编码器机器人如何看第6章 语言理解机器人如何听懂指令第7章 动作输出机器人如何动手第8章 训练方法VLA如何学习第三篇模型篇——里程碑VLA模型详解第9章 RT-2Google的开创性工作第10章 OpenVLA开源VLA的标杆第11章 π0/π0.5Physical Intelligence的突破第12章 其他重要VLA模型第四篇实践篇——如何入门VLA第13章 VLA的数据收集与处理第14章 VLA的训练与部署第15章 VLA的评测与优化第五篇前沿与展望第16章 VLA的当前挑战第17章 VLA的未来趋势附录术语表、论文列表、学习路径第一篇基础篇——理解VLA的前世今生第1章 从ChatGPT说起AI的三个阶段1.1 第一阶段大语言模型LLM代表GPT-4、Claude、DeepSeek、Qwen能力理解和生成自然语言文本输入文本 → LLM → 输出文本 例如 输入请帮我写一首关于春天的诗 输出春风拂面暖如酥桃花含笑映溪湖...局限只能处理文字看不到图片听不到声音更无法控制机器人。1.2 第二阶段视觉-语言模型VLM代表GPT-4V/4o、Gemini、LLaVA、Qwen-VL能力同时理解图像和语言输入图像文本 → VLM → 输出文本 例如 输入[一张猫的照片] 这张图片里是什么 输出图片中是一只橘色的猫正趴在窗台上晒太阳。关键进步AI从只能读文字进化到能看图说话。局限能看懂能说但不能行动。它告诉你桌上有一个杯子但它无法伸手去拿。1.3 第三阶段视觉-语言-动作模型VLA代表RT-2、OpenVLA、π0能力理解视觉和语言然后输出动作控制机器人输入图像语言指令 → VLA → 输出机器人动作 例如 输入[机器人视角的图像] 把红色的杯子放到盘子里 输出机械臂动作序列 → 抓取杯子 → 移动 → 放下关键突破AI从能看能说进化到能看能说还能做。1.4 三阶段对比阶段代表输入输出类比LLMGPT-4文本文本一个只会读写的学者VLMGPT-4V图像文本文本一个能看能说的观察者VLART-2, OpenVLA图像文本动作一个能看能说能做的执行者1.5 为什么VLA如此重要VLA是通往通用机器人的关键路径传统机器人编程 人工编写规则 → 每个任务单独编程 → 无法泛化到新任务 VLA方式 大规模预训练 → 理解自然语言指令 → 泛化到未见过的任务 例如 传统工程师写代码移动到坐标(0.3, 0.5, 0.2)闭合夹爪 VLA直接说把杯子放到桌子上机器人自己理解并执行第2章 什么是VLA一张图看懂2.1 VLA的核心定义VLA Vision视觉 Language语言 Action动作 ┌─────────────────────────────────────────────────────┐ │ │ │ 视觉输入相机图像 │ │ │ │ │ ▼ │ │ ┌──────────┐ 语言指令 ┌──────────────┐ │ │ │ 视觉编码器 │◀──把杯子放桌上──│ 语言编码器 │ │ │ └────┬─────┘ └──────┬───────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌─────────────────────────────────────┐ │ │ │ 多模态融合Transformer │ │ │ └──────────────┬──────────────────────┘ │ │ │ │ │ ▼ │ │ ┌─────────────────────────────┐ │ │ │ 动作解码器/动作头 │ │ │ └──────────────┬──────────────┘ │ │ │ │ │ ▼ │ │ 机器人动作关节角度、末端位置、夹爪开合 │ │ │ └─────────────────────────────────────────────────────┘2.2 通俗理解把VLA想象成一个超级保姆机器人看Vision通过摄像头看到房间里的状态——桌上有个杯子旁边有个盘子听Language听到你说把杯子放到盘子里想多模态融合理解杯子是眼前那个红色的物体盘子是旁边白色的容器放到…里意味着抓取移动放置做Action控制机械臂执行抓取-移动-放置的动作序列2.3 VLA vs 传统机器人控制维度传统机器人VLA机器人指令方式编程代码/示教自然语言泛化能力每个任务单独编程一句话描述新任务环境理解预设的传感器规则端到端视觉理解适应能力环境变化需重新编程可适应新环境开发成本高需要专业工程师低自然语言交互第3章 VLA的前置知识3.1 大语言模型LLM基础核心概念TransformerLLM的核心架构通过自注意力机制处理序列数据Token文本被切分为token词或子词模型逐token生成预训练微调先在海量文本上学习语言规律再在特定任务上微调上下文窗口模型一次能处理的token数量如GPT-4的128K token与VLA的关系VLA通常以预训练LLM为骨干网络在其基础上添加视觉和动作能力。3.2 视觉-语言模型VLM基础核心概念视觉编码器通常是ViTVision Transformer将图像转化为向量序列跨模态对齐让视觉特征和语言特征在同一空间中对齐图文理解同时理解图像内容和文字描述与VLA的关系VLA VLM 动作输出。VLM提供了看理解的能力VLA在此基础上增加做的能力。3.3 机器人学基础核心概念自由度DOF机器人关节能独立运动的维度数。例如6轴机械臂有6个自由度末端执行器机器人手的部分通常是夹爪或吸盘关节空间 vs 笛卡尔空间关节空间每个关节的角度 [θ1, θ2, θ3, θ4, θ5, θ6]笛卡尔空间末端执行器的位置和姿态 [x, y, z, roll, pitch, yaw]动作空间机器人可以执行的所有动作的集合本体感知Proprioception机器人对自身状态的感知关节角度、力矩等与VLA的关系VLA输出的动作需要映射到机器人实际的控制指令。3.4 行为克隆Behavior Cloning基础核心思想通过观察专家示范来学习如何行动。传统监督学习 输入图像指令 标签正确的动作由人类专家示范 训练让模型学习 输入→动作 的映射 行为克隆在VLA中的应用 数据人类操作机器人完成任务的视频动作记录 训练VLA学习从视频帧语言指令到动作的映射 推理给VLA新的图像和指令输出动作控制机器人第二篇技术篇——VLA的核心架构与原理第4章 VLA的总体架构4.1 三种主流架构范式范式一VLM 动作头最主流 ┌───────────────┐ │ 预训练VLM骨干 │ ← 冻结或微调 │如Qwen2-VL │ └───────┬───────┘ │ ┌───────▼───────┐ │ 动作头 │ ← 新增训练 │Action Head │ └───────┬───────┘ │ ▼ 机器人动作 范式二统一Token化最优雅 ┌───────────────┐ │ 统一Tokenizer │ ← 所有模态转为token └───────┬───────┘ │ ┌───────▼───────┐ │ 统一Transformer│ ← 处理所有模态 └───────┬───────┘ │ ▼ 文本/图像/动作token 范式三扩散策略VLM最新趋势 ┌───────────────┐ │ VLM骨干 │ ← 提供视觉语言理解 └───────┬───────┘ │ ┌───────▼───────┐ │ 扩散模型 │ ← 生成动作序列 │Diffusion │ └───────┬───────┘ │ ▼ 机器人动作4.2 VLA的核心组件VLA 视觉编码器 语言编码器 多模态骨干 动作输出模块 ┌────────────────────────────────────────────────────────┐ │ VLA模型 │ │ │ │ ┌────────────┐ ┌────────────┐ │ │ │ 视觉编码器 │ │ 语言编码器 │ │ │ │ (ViT/ │ │ (Tokenizer │ │ │ │ SigLIP) │ │ Embedding)│ │ │ └──────┬─────┘ └──────┬─────┘ │ │ │ │ │ │ ▼ ▼ │ │ ┌──────────────────────────────────┐ │ │ │ 多模态骨干Transformer │ │ │ │ 可以是预训练的LLM/VLM │ │ │ └──────────────┬───────────────────┘ │ │ │ │ │ ▼ │ │ ┌──────────────────────────────────┐ │ │ │ 动作输出模块 │ │ │ │ 方案A离散token化 │ │ │ │ 方案B连续回归头 │ │ │ │ 方案C扩散模型 │ │ │ └──────────────┬───────────────────┘ │ │ │ │ │ ▼ │ │ 机器人动作序列 │ └────────────────────────────────────────────────────────┘第5章 视觉编码器机器人如何看5.1 视觉编码器的作用将原始图像像素转化为模型可以理解的向量表示。原始图像(480×640×3) → 视觉编码器 → 视觉特征向量序列 例如 输入480×640的RGB图像 处理ViT将图像切分为16×16的patch每个patch编码为一个向量 输出(480/16)×(640/16) 30×40 1200个视觉token5.2 VLA中常用的视觉编码器编码器来源特点被哪些VLA使用CLIP ViTOpenAI图文对齐预训练泛化能力强RT-2, 多数VLASigLIPGoogle改进的图文对齐效果更好OpenVLADINOv2Meta自监督预训练细节感知强部分VLAInternViT上海AI Lab超大规模6B参数InternVL系列5.3 视觉编码的关键设计选择分辨率机器人场景通常需要较高的图像分辨率细节很重要常用224×224, 336×336, 480×480更高分辨率 → 更多视觉token → 更多计算量预训练方式CLIP式预训练图文对比学习特征天然与语言对齐自监督预训练DINOv2不依赖文本但需要额外对齐是否冻结冻结视觉编码器保持预训练的视觉能力训练更快微调视觉编码器适配机器人场景但可能丢失通用性第6章 语言理解机器人如何听懂指令6.1 语言指令的类型高层指令High-level 把红色的杯子放到桌子上 → 需要VLA理解物体、位置、动作的语义 低层指令Low-level 移动到坐标(0.3, 0.5, 0.2) → VLA直接输出对应的运动 中层指令 先抓住杯子然后移动到盘子上方最后松开 → 需要VLA理解任务的步骤分解6.2 语言编码方式方式一使用LLM的Tokenizer把红色杯子放到盘子里 → Tokenizer → [token_id_1, token_id_2, ..., token_id_n] → Embedding层 → [向量1, 向量2, ..., 向量n]方式二使用专门的语言编码器如T5编码器将指令编码为固定长度的向量主流选择直接使用预训练LLM的Tokenizer和Embedding层这样可以继承LLM的语言理解能力。6.3 语言指令的挑战歧义性“把那个东西拿过来”——哪个东西哪里抽象性“整理一下桌面”——具体要做什么组合性“先把A放到B上再把C拿走”——多步任务泛化性训练时没见过的物体描述第7章 动作输出机器人如何动手这是VLA区别于VLM的最关键部分。7.1 动作空间的定义对于一个6轴机械臂夹爪 动作空间 { Δx, # 末端执行器X方向位移 Δy, # Y方向位移 Δz, # Z方向位移 Δroll, # 绕X轴旋转 Δpitch, # 绕Y轴旋转 Δyaw, # 绕Z轴旋转 Δgripper # 夹爪开合1开0关或连续值 } 共7个连续值构成一个7维动作向量7.2 三种动作输出方案方案A离散Token化RT-2方案动作空间离散化 连续值Δx ∈ [-1, 1] → 量化为256个离散值 如-1.0→token_0, -0.992→token_1, ..., 1.0→token_255 7个动作维度 × 256个离散值 7个离散token 输出方式 VLA像生成文本一样逐token生成动作 [token_128, token_200, token_50, token_100, token_150, token_80, token_255] → 解码为连续动作值[0.0, 0.56, -0.61, 0.0, 0.17, -0.37, 1.0] 优点复用LLM的next-token预测能力无需修改架构 缺点离散化损失精度方案B连续回归头MLP Head在Transformer最后一层的输出上接一个MLP回归头 Transformer输出向量 → MLP(隐藏层→7) → 7维连续动作向量 优点精度高无量化损失 缺点需要额外的回归头训练方式与LLM不同方案C扩散模型Diffusion Policy不直接输出单步动作而是生成一段动作序列 扩散过程 随机噪声 → 逐步去噪 → 动作序列 [a_t, a_t1, ..., a_tH] H为预测时域如16步 VLM提供条件 视觉特征语言特征 作为扩散模型的条件输入 代表π0, Octo 优点可以建模多模态动作分布同一个状态可以有多种合理的动作 缺点推理较慢需要多步去噪7.3 动作方案对比方案精度推理速度训练难度代表模型离散Token中等快低复用LLMRT-2连续回归高快中OpenVLA扩散模型高较慢高π0, Octo第8章 训练方法VLA如何学习8.1 训练数据VLA的训练数据通常来自机器人遥操作Teleoperation数据采集过程 人类操作员 → 遥操作机器人 → 完成任务如抓取杯子 ↓ 同时记录 · 机器人视角的图像序列 [img_1, img_2, ..., img_T] · 语言指令 把杯子放到盘子里 · 机器人动作序列 [action_1, action_2, ..., action_T] · 机器人状态关节角度等8.2 训练目标标准行为克隆Behavior Cloning给定 · 图像 I_t当前帧 · 语言指令 L · 真实动作 a_t人类示范的动作 训练目标 最小化 Loss ||f(I_t, L) - a_t||² 即让模型预测的动作尽可能接近人类示范的动作8.3 训练策略策略一完全从头训练 数据需求极大数十万条以上 效果理论上最优但成本极高 代表RT-2在Google的大规模数据上训练 策略二预训练VLM 微调动作头 数据需求中等数千到数万条 效果最常用性价比最高 步骤 1. 使用预训练VLM如Qwen2-VL作为骨干 2. 冻结或轻量微调VLM 3. 训练动作输出模块 代表OpenVLA, RT-2 策略三少样本/零样本泛化 数据需求极少几十到几百条 效果依赖预训练VLM的强大泛化能力 挑战对新场景的适应能力有限8.4 数据增强常用数据增强方法 · 随机裁剪、旋转、翻转图像 · 颜色抖动、亮度/对比度调整 · 语言指令改写拿起杯子 → 抓取杯子 → 把杯子拿起来 · 历史帧采样随机选择过去的不同帧第三篇模型篇——里程碑VLA模型详解第9章 RT-2Google的开创性工作9.1 基本信息全称Robotic Transformer 2发布Google DeepMind2023年7月论文“RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control”核心贡献首次证明VLM可以转化为VLA且预训练的视觉-语言知识能迁移到机器人控制9.2 架构RT-2 PaLI-X/PaLM-E预训练VLM 动作Token化 ┌─────────────────────────────────────┐ │ 预训练VLMPaLI-X或PaLM-E │ │ · 视觉编码器ViT │ │ · 语言模型Transformer decoder │ │ · 在大规模图文数据上预训练 │ └──────────────┬──────────────────────┘ │ ▼ ┌─────────────────────────────────────┐ │ 动作Token化 │ │ · 将连续动作值量化为离散整数 │ │ · 如Δx0.3 → token_166 │ │ · 7个动作维度 → 7个离散token │ │ · 复用VLM的词表新增256个动作token │ └──────────────┬──────────────────────┘ │ ▼ 逐token生成动作序列9.3 关键发现Web知识迁移RT-2能理解训练数据中从未见过的物体和概念如把泰勒·斯威夫特的CD放到黄色五角星上因为这些知识来自VLM的预训练涌现能力RT-2展现出推理能力如把垃圾扔到垃圾桶里——它知道什么是垃圾规模效应更大的VLM骨干 → 更好的VLA性能9.4 局限性依赖Google的大规模内部数据Open X-Embodiment模型巨大PaLI-X 55B部署成本高离散化动作的精度限制第10章 OpenVLA开源VLA的标杆10.1 基本信息全称Open Vision-Language-Action Model发布Stanford等2024年6月论文“OpenVLA: An Open-Source Vision-Language-Action Model”核心贡献首个完全开源的大规模VLA模型可复现、可微调10.2 架构OpenVLA Prismatic-7B VLM开源VLM 动作Token化 ┌─────────────────────────────────────────┐ │ 视觉编码器双编码器 │ │ · SigLIP-SO400M语义理解 │ │ · DINOv2细节感知 │ │ → 两个编码器的特征拼接 │ └──────────────┬──────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 语言模型骨干LLaMA 2 7B │ │ · 接收视觉特征和语言token │ │ · Transformer decoder架构 │ └──────────────┬──────────────────────────┘ │ ▼ ┌─────────────────────────────────────────┐ │ 动作Token化 │ │ · 256 bins离散化 │ │ · 7维动作Δx,Δy,Δz,Δroll,Δpitch,Δyaw,Δgrip│ └──────────────┬──────────────────────────┘ │ ▼ 逐token生成动作10.3 关键创新双视觉编码器SigLIP语义 DINOv2细节比单编码器效果更好开源数据训练在Open X-Embodiment数据集约97万条机器人轨迹上训练可微调可以在特定机器人和任务上微调仅需约60条示范数据即可适配10.4 性能在多个机器人基准上与RT-2-X55B性能相当但模型只有7B部署成本低得多在新任务和新环境上展现出良好的泛化能力第11章 π0/π0.5Physical Intelligence的突破11.1 π02024年10月核心创新将**扩散模型Diffusion Policy**与VLM结合架构π0 预训练VLMPaliGemma 3B 流匹配扩散模型Flow Matching ┌─────────────────────────────────┐ │ 预训练VLMPaliGemma 3B │ │ · 处理图像和语言指令 │ │ · 输出多模态特征 │ └──────────┬──────────────────────┘ │ 作为条件 ▼ ┌─────────────────────────────────┐ │ 流匹配扩散模型 │ │ · 输入随机噪声 │ │ · 条件VLM特征 │ │ · 输出动作序列连续值 │ │ · 预测时域未来50步动作 │ └──────────┬──────────────────────┘ │ ▼ 连续动作序列关键优势扩散模型可以建模多模态动作分布同一个状态可以有多种合理的动作比离散token化精度更高预测整段动作序列而非单步动作更流畅11.2 π0.52025年3月核心创新在π0基础上增加高层规划能力双层架构高层规划器VLM 看到图像 听到清理桌面 → 输出子任务序列1.拿起杯子 2.放到水槽 3.拿起纸巾 4.扔进垃圾桶 低层执行器π0扩散策略 接收子任务拿起杯子 → 输出具体动作序列控制机器人执行关键突破可以处理复杂的长时域任务高层用VLM做语义规划低层用扩散策略做精确控制在真实家庭环境中展示了强大的泛化能力第12章 其他重要VLA模型12.1 Octo2024年Berkeley出品开源通用机器人策略基于Transformer使用扩散头输出动作在Open X-Embodiment数据集上训练可以微调适配新机器人12.2 RoboFlamingo2024年基于Flamingo VLM架构使用交叉注意力融合视觉和语言信息在多个机器人基准上表现优异12.3 SpatialVLA2025年引入3D空间理解能力将2D图像特征提升为3D空间感知对空间推理任务如放到…左边效果更好12.4 DigiRL2024年使用强化学习在线优化VLA不仅依赖行为克隆还通过实际交互改进解决了行为克隆的分布偏移问题第四篇实践篇——如何入门VLA第13章 VLA的数据收集与处理13.1 数据收集方式方式一人类遥操作最常用 人类操作员 → 遥操作设备如VR手套、主从控制器→ 控制机器人完成任务 同时记录图像、动作、语言标注 方式二人类视频标注 收集人类操作的视频 → 标注动作手动或自动→ 用于训练 方式三仿真环境 在模拟器如MuJoCo、Isaac Gym中自动采集数据 优点数据量大、成本低、安全 缺点与真实世界有差距sim-to-real gap 方式四混合数据 仿真数据 真实数据混合训练 先在仿真中预训练再用少量真实数据微调13.2 数据格式一条训练数据包含 { episode_id: 1234, task_description: 把红色杯子放到盘子里, steps: [ { image: frame_0001.jpg, # 机器人视角图像 state: [0.1, 0.2, 0.3, ...], # 机器人状态关节角度等 action: [0.01, -0.02, 0.03, 0.0, 0.0, 0.0, 1.0], # 7维动作 language_instruction: 把红色杯子放到盘子里 }, { image: frame_0002.jpg, state: [0.11, 0.18, 0.33, ...], action: [0.02, -0.01, 0.02, 0.0, 0.0, 0.0, 1.0], language_instruction: 把红色杯子放到盘子里 }, ... ] }13.3 数据集资源数据集规模内容来源Open X-Embodiment100万轨迹多种机器人、多种任务Google等21家机构联合Bridge V26万条单臂机器人操作StanfordDROID7万条多种机器人的真实操作多所大学RLBench100个任务仿真环境中的操作DeepMindLIBERO130个任务长时域操作UT Austin第14章 VLA的训练与部署14.1 训练环境搭建# 基础环境conda create-nvlapython3.10conda activate vla pipinstalltorch torchvision transformers# OpenVLA训练环境gitclone https://github.com/openvla/openvla.gitcdopenvla pipinstall-e.# 硬件需求# 训练至少4×A100 80GB7B模型# 推理1×A100 或 1×RTX 409014.2 使用OpenVLA进行推理fromtransformersimportAutoModelForVision2Seq,AutoProcessorfromPILimportImage# 加载预训练模型processorAutoProcessor.from_pretrained(openvla/openvla-7b,trust_remote_codeTrue)modelAutoModelForVision2Seq.from_pretrained(openvla/openvla-7b,trust_remote_codeTrue)# 准备输入imageImage.open(robot_view.jpg)promptIn: What action should the robot take to pick up the cup?\nOut:# 推理inputsprocessor(prompt,image).to(cuda,dtypetorch.bfloat16)actionmodel.predict_action(inputs,unnorm_keybridge_orig,do_sampleFalse)print(f预测动作{action})# 输出[Δx, Δy, Δz, Δroll, Δpitch, Δyaw, Δgripper]14.3 微调OpenVLA到新机器人# 使用LoRA高效微调仅需约60条示范数据frompeftimportLoraConfig,get_peft_model# 配置LoRAlora_configLoraConfig(r32,# LoRA秩lora_alpha16,# 缩放因子target_modules[q_proj,v_proj],# 应用LoRA的层lora_dropout0.05,)# 应用LoRAmodelget_peft_model(model,lora_config)# 训练仅训练LoRA参数约0.1%的总参数量trainerTrainer(modelmodel,train_datasetyour_robot_dataset,# 你的机器人数据argsTrainingArguments(num_train_epochs50,per_device_train_batch_size8,learning_rate2e-5,output_dir./vla_finetuned,),)trainer.train()第15章 VLA的评测与优化15.1 评测指标指标含义计算方式成功率SR任务完成的比例成功次数/总尝试次数进度分数Progress Score任务完成的进度完成的子任务数/总子任务数泛化成功率在新物体/新场景上的成功率新场景成功数/新场景尝试数推理延迟模型推理一次的时间毫秒级动作精度预测动作与专家动作的偏差MSE/MAE15.2 常见问题与优化问题1分布偏移Distribution Shift现象训练数据中没见过的情况出现时模型表现急剧下降 解决 · 增加训练数据的多样性 · 使用DAgger在线交互人类纠正 · 使用强化学习在线优化问题2视觉泛化不足现象换了桌子颜色/背景模型就失败了 解决 · 数据增强颜色、背景随机化 · 使用更强的视觉编码器如DINOv2 · 域随机化Domain Randomization问题3长时域任务失败现象多步任务中间出错后续全部失败 解决 · 分层架构高层规划低层执行 · 使用历史帧信息 · 增加预测时域预测更多步动作第五篇前沿与展望第16章 VLA的当前挑战16.1 数据瓶颈问题 · 真实机器人数据采集成本高需要硬件人力 · 数据多样性不足通常在实验室环境中采集 · 数据规模远不如图文数据百万级 vs 十亿级 可能的解决方向 · 仿真数据 Sim-to-Real迁移 · 人类视频数据的利用YouTube等 · 数据增强技术 · 合成数据生成16.2 实时性要求问题 · 机器人控制需要高频10-100Hz · VLA推理需要时间100ms-1s · 扩散模型更慢需要多步去噪 可能的解决方向 · 模型蒸馏大模型→小模型 · 模型量化FP16→INT8 · 动作分块预测一次预测多步动作 · 异步控制推理和执行并行16.3 安全性问题 · VLA是黑箱模型难以解释决策过程 · 错误动作可能导致机器人损坏或伤害人 · 对抗样本攻击 可能的解决方向 · 安全约束层动作前检查安全性 · 可解释性增强 · 人在回路Human-in-the-loop16.4 Sim-to-Real Gap问题 · 仿真环境与真实世界有差距 · 光照、纹理、物理引擎的不精确 · 在仿真中训练的模型直接部署到真实机器人效果下降 可能的解决方向 · 域随机化Domain Randomization · 域适应Domain Adaptation · 更高保真的仿真器第17章 VLA的未来趋势17.1 趋势一更大规模的预训练方向 · 利用互联网级别的视频数据预训练 · 跨机器人、跨任务的通用预训练 · 类似GPT的机器人基础模型 预期效果 · 零样本泛化到新任务 · 少量数据即可适配新机器人17.2 趋势二多模态输入扩展当前VLA视觉 语言 → 动作 未来VLA视觉 语言 触觉 力觉 声音 → 动作 触觉感知抓取力度控制 力觉反馈精细操作如拧螺丝 声音理解发出声音的那个东西17.3 趋势三长时域任务规划当前单步或短序列动作预测 未来与LLM结合进行高层任务规划 例如 人类帮我做一杯咖啡 高层规划器LLM 1. 找到咖啡杯 2. 放到咖啡机下面 3. 按下咖啡机按钮 4. 等待咖啡做好 5. 拿起咖啡杯 6. 送到人类面前 低层执行器VLA逐步执行每个子任务17.4 趋势四具身智能AgentVLA的终极形态通用具身智能Agent 能力 · 理解自然语言指令 · 感知复杂环境 · 规划多步任务 · 执行精细操作 · 从交互中学习 · 适应新环境和新任务 就像一个机器人版的ChatGPT——你用自然语言告诉它做什么它就能做到。17.5 产业应用前景领域应用场景当前状态工业制造柔性装配、质量检测试点应用家庭服务做饭、打扫、照顾老人研究阶段物流仓储分拣、打包、搬运部分商用医疗健康手术辅助、康复训练研究阶段农业采摘、播种、除草试点应用附录附录A核心术语表术语英文解释VLAVision-Language-Action视觉-语言-动作模型VLMVision-Language Model视觉-语言模型LLMLarge Language Model大语言模型DOFDegrees of Freedom自由度BCBehavior Cloning行为克隆Diffusion Policy扩散策略使用扩散模型生成动作序列的方法Flow Matching流匹配一种高效的扩散模型训练方法LoRALow-Rank Adaptation低秩适配高效微调方法Tokenizer分词器将输入转化为离散token的工具Proprioception本体感知机器人对自身状态的感知End Effector末端执行器机器人的手Teleoperation遥操作人类远程操控机器人Sim-to-Real仿真到真实仿真环境训练→真实世界部署的迁移Domain Randomization域随机化随机化训练环境以提升泛化能力DAggerDataset Aggregation在线交互人类纠正的训练方法Open X-Embodiment-Google等联合发布的开源机器人数据集附录B推荐论文列表入门必读RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control (Google, 2023)OpenVLA: An Open-Source Vision-Language-Action Model (Stanford, 2024)π0: A Vision-Language-Action Flow Model for General Robot Control (Physical Intelligence, 2024)核心技术4. CLIP: Learning Transferable Visual Models (OpenAI, 2021) - 视觉编码基础5. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (Columbia, 2023) - 扩散策略基础6. Open X-Embodiment: Robotic Learning Datasets and RT-X Models (Google等, 2024) - 数据集前沿进展7. π0.5: a Vision-Language-Action Model with Open-World Generalization (Physical Intelligence, 2025)8. SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model (2025)9. DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning (2024)附录C推荐学习路径第一阶段基础1-2周理解Transformer架构学习CLIP的图文对齐思想了解行为克隆的基本概念阅读RT-2论文第二阶段核心技术2-4周5. 学习OpenVLA的架构和代码6. 理解扩散模型基础7. 了解机器人学基础正运动学、逆运动学8. 阅读π0论文第三阶段动手实践4-8周9. 搭建OpenVLA训练环境10. 在仿真环境如LIBERO中训练VLA11. 尝试微调VLA到新任务12. 了解数据收集流程第四阶段前沿探索持续13. 跟踪最新VLA论文14. 研究Sim-to-Real迁移15. 探索多模态扩展触觉、力觉16. 参与开源社区附录D开源资源资源链接说明OpenVLAgithub.com/openvla/openvla开源VLA模型Octogithub.com/octo-models/octoBerkeley开源机器人策略LeRobotgithub.com/huggingface/lerobotHuggingFace的机器人学习框架Open X-Embodimentrobotics-transformer-x.github.io数据集LIBEROgithub.com/Lifelong-Robot-Learning/LIBERO仿真评测环境