每秒20次指尖反馈!伯克利×英伟达×李飞飞团队推出T-Rex触觉灵巧操作框架

📅 2026/7/4 19:41:14
每秒20次指尖反馈!伯克利×英伟达×李飞飞团队推出T-Rex触觉灵巧操作框架
异步高低频分层控制适配双臂灵巧真机——给机器人装上了一套“触觉反射神经”目录01 两大底层矛盾催生T-Rex全新解法触觉数据稀缺预训练与真机适配割裂感知频率天然错配单架构无法兼顾规划与微调02 横向赛道定位三类触觉模型路线对比03 T-Rex三大核心协同模块T-Rex开源触觉数据集MoT异步混合专家架构三段递进训练流水线04 行业价值与未来方向后续优化路径近日由伯克利、斯坦福李飞飞团队、英伟达联合推出的T-Rex触觉反应灵巧操作框架依托异步混合Transformer专家架构打通VLA模型与高频触觉闭环控制的隔阂配套行业首个以动作基元为核心的大规模同步触觉机器人数据集。在12类接触密集家用任务中完成真机验证翻书页、挤牙膏、开锁等精细力控任务零样本泛化能力大幅超越ViTacFormer、EgoScale等主流基线。01 两大底层矛盾催生T-Rex全新解法当下纯视觉VLA模型难以实现人类级精细操作根源集中在数据断层、时序架构错配两大行业难题也是T-Rex的核心攻坚方向。触觉数据稀缺预训练与真机适配割裂现有触觉模型分两类路线均存在明显缺陷一是ViTacFormer这类任务专用小模型仅采集单一场景数据泛化能力极差二是EgoScale、π0.5等纯视觉大模型依靠数万小时人类视频预训练但全程无触觉输入面对挤压、滑移操作极易失控。T-Rex提出三段式训练方案仅用海量人类视频完成前期预训练搭建通用先中期再投入100小时同步触觉真机数据专门训练触觉分支无需采集带触觉的人类视频大幅降低数据成本同时保留大模型零样本能力。▲T-Rex 整体技术总览感知频率天然错配单架构无法兼顾规划与微调人类手部动作分层运行大脑低频规划轨迹指尖高频实时调整力度。但过往模型只能统一时序步长陷入两难低频架构无力应对打滑、用力过载全高频架构算力开销巨大、长时序轨迹漂移。RDP等快慢双模型方案特征完全隔离触觉修正缺少全局视觉约束。T-Rex混合专家架构实现共享主干、异步运行低频动作专家生成基础轨迹并缓存视觉特征高频触觉专家复用缓存做轻量化实时修正无需重复计算视觉信息兼顾规划稳定性与触感实时反馈。02 横向赛道定位三类触觉模型路线对比截至2026年6月触觉灵巧操作分化为三条路线T-Rex融合大尺度预训练与异步触觉优化形成差异化优势任务专属小模仿模型ViTacFormer、RDP单任务少量数据从零训练泛化性差12项任务平均成功率仅3%-6%仅适用于实验室演示无通用落地价值。纯视觉VLA粗暴融合触觉EgoScale、π0.5tactile拥有优秀语言理解能力但时序冲突破坏模型性能EgoScale基线成功率35%加入触觉后反而下跌至6%。T-Rex异步MoT触觉VLA人类视频预训练提供通用先独立高频触觉分支搭配时空VQ-VAE编码器级联流匹配实现异步修正12项任务平均成功率65%.▲12 项触觉操作任务各基线成功率总表03 T-Rex三大核心协同模块整套体系由触觉数据集、MoT三专家架构、三段训练流程组成三者互相支撑构成完整触觉操作底座。T-Rex开源触觉数据集区别于按任务划分的传统数据集该数据集以22类动作基元207种日常物体为核心组合筛选502组有效交互产出7700同步轨迹总时长100小时。每条轨迹同步存储多路RGB图像、十指力/形变触觉信号、关节数据与语言指令全部30Hz时间对齐开箱即可训练。▲T-Rex 数据集统计分布图遥操作采集搭配VLM自动标注采用MIT开源协议。消融实验证实其中期微调具备极强数据效率下游仅需10-50条演示样本即可达到较高性能无触觉微调则需要200条以上样本大幅降低灵巧手真机采集成本。▲有无 T-Rex 中期数据集的零样本 / 微调任务性能对比MoT异步混合专家架构架构包含潜态、动作、触觉三类共享Transformer主干的专家采用级联流匹配生成动作总损失公式简化为动作损失、触觉修正损失、视觉预测损失协同优化权重分别为1、1、0.5。潜态专家5Hz图像语言输入预测未来视觉特征生成全局KV缓存不输出动作动作专家5Hz复用缓存完成粗去噪输出基础动作片段触觉专家20Hz读取缓存结合时空触觉VQ-VAE编码的力与时序特征分段异步细化动作。▲T-Rex 混合专家 MoT 完整架构图核心创新时空触觉编码器同时处理16帧时序力序列与指尖形变图消融实验移除该模块性能下跌7%异步设计取消后平均成功率下降5%滑移故障显著增多。推理阶段视觉主干仅运算一次算力集中在轻量化触觉分支推理速度大幅提升。三段递进训练流水线人类视频预训练22889小时第一视角视频仅训练潜态、动作专家搭建通用视觉语言先不使用机器人触觉数据触觉中期微调冻结视觉主干完整训练触觉编码器与触觉专家适配机器人动力学与接触反馈任务后微调复杂任务仅需少量样本微调基础任务可实现零样本操作。消融结果证明三阶段缺一不可仅预训练平均成功率仅18%完整流程直接提升至65%。▲三段式训练方案消融实验04 行业价值与未来方向作为首个解决视觉-触觉时序错配的异步MoT架构为后续VTLA模型提供标准设计思路此外训练流程轻量化无需海量触觉人类数据中端GPU即可完成推理部署适配服务人形机器人研发。但与此同时硬件绑定问题也较为明显仅适配Sharpa Wave专用指尖触觉灵巧手更换传感器需重新微调完全依托遥操作模仿无在线强化学习迭代机制无法自主优化故障。后续优化路径引入在线强化学习摆脱对遥操作数据的完全依赖拓展全域手掌触觉感知当前仅使用指尖传感器优化长时序规划模块提升多步骤装配、连续旋转任务稳定性。总体而言T-Rex搭建起一套兼顾通用泛化与实时触感反馈的完整底座解决纯视觉机器人无力控、易打滑的核心痛点。触觉感知是机器人物理理解的必经之路该工作的快慢分层架构后续或成为触觉VLA主流参考方案。Ref论文标题T-Rex: Tactile-Reactive Dexterous Manipulation论文链接https://arxiv.org/pdf/2606.17055项目主页https://tactile-rex.github.io