跨平台部署Hy-Embodied-0.5-VLA-UMI:支持4种真实机器人平台的技术解析

📅 2026/6/17 15:45:41
跨平台部署Hy-Embodied-0.5-VLA-UMI:支持4种真实机器人平台的技术解析
跨平台部署Hy-Embodied-0.5-VLA-UMI支持4种真实机器人平台的技术解析【免费下载链接】Hy-Embodied-0.5-VLA-UMI项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMIHy-Embodied-0.5-VLA-UMI是腾讯Robotics X与腾讯Hy团队联合开发的端到端视觉-语言-动作VLA系统能够实现跨四种真实机器人平台的部署与迁移。本文将详细解析其跨平台部署的核心技术与实现步骤帮助开发者快速掌握这一强大工具的应用方法。 跨平台部署的核心优势Hy-Embodied-0.5-VLA-UMI基于Hy-Embodied-0.5 MoT骨干网络构建通过10,000小时的高保真UMI演示数据训练实现了在四种真实机器人平台上的稳健跨实体迁移。其核心优势包括动作表示解耦采用与实体特定运动学解耦的delta-chunk动作表示使模型能够适应不同机器人的硬件结构通用预训练 checkpoint作为Hy-Embodied-0.5-VLA的预训练检查点为下游目标实体的微调提供通用起点高效迁移能力在RoboTwin 2.0基准测试中达到90.9%/90.1%的Clean/Randomized任务成功率 部署前的准备工作环境要求Python 3.8PyTorch 1.13CUDA 11.7至少16GB显存的GPU必要文件Hy-Embodied-0.5-VLA-UMI提供了部署所需的全部文件tencent/Hy-Embodied-0.5-VLA-UMI/ ├── model.safetensors # 模型权重 ├── config.json # HyVLA配置 ├── tokenizer.json # VLM骨干网络的分词器 ├── tokenizer_config.json ├── special_tokens_map.json ├── chat_template.jinja # 指令格式化的聊天模板 ├── preprocessor_config.json # 图像预处理配置 ├── norm_stats.pkl # 预计算的归一化统计数据 └── LICENSE模型获取通过以下命令克隆仓库git clone https://gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMI 基础部署步骤模型加载使用以下代码加载预训练模型import torch from huggingface_hub import snapshot_download from hy_vla import HyVLA, HyVLAConfig ckpt snapshot_download(tencent/Hy-Embodied-0.5-VLA-UMI) config HyVLAConfig.from_pretrained(ckpt) policy HyVLA.from_pretrained(ckpt, configconfig) policy.enable_video_encoder_if_needed() # 预训练时K1在K1的微调前调用此函数 policy policy.to(devicecuda, dtypetorch.bfloat16).eval()输入准备模型需要以下输入数据# (B, K, C, H, W); K1个历史槽位预训练模式 img torch.zeros(1, 1, 3, 224, 224, devicecuda, dtypetorch.bfloat16) # 归一化的双臂末端执行器状态: [xyz(3) rot6d(6) gripper(1)] * 2 state torch.zeros((1, config.max_state_dim), devicecuda, dtypetorch.bfloat16) batch { observation.images.top_head: img, observation.images.hand_left: img, observation.images.hand_right: img, observation.state: state, task: [pick up the bottle], }推理执行with torch.no_grad(): actions policy.forward_evaluate(batch)[pred] actions actions[..., : config.action_feature.shape[0]] print(actions.shape) 针对特定机器人平台的微调Hy-Embodied-0.5-VLA-UMI设计为可微调模型针对不同机器人平台需要进行特定微调RoboTwin 2.0微调示例# 在RoboTwin 2.0上微调 export CHIEF_IPchief-ip INDEX0 bash scripts/train_robotwin_umi.sh归一化统计数据更新如果在新数据集上微调可能需要重新生成归一化统计数据python scripts/compute_norm_lance.py \ --lance-source /path/to/your/data \ --output norm_stats.pkl 跨平台迁移的关键技术动作表示方法Hy-Embodied-0.5-VLA-UMI采用相对于第一帧的delta EEF块动作表示每臂10维xyz rot6d gripper动作时间范围H5010 Hz异步推理框架结合异步推理框架Hy-VLA建立了连续灵巧操作的可扩展范式使模型能够在不同硬件条件下保持高效推理。偏好优化通过FlowPRO偏好优化技术进一步提升模型在不同平台上的表现增强跨平台适应性。 参考资源技术报告arXiv:2606.14409模型配置config.json预处理器配置preprocessor_config.json聊天模板chat_template.jinja 总结Hy-Embodied-0.5-VLA-UMI通过创新的动作表示和解耦设计实现了在四种真实机器人平台上的高效部署与迁移。其预训练模型提供了强大的通用起点配合针对性的微调流程使开发者能够快速将其应用于各种机器人系统中推动机器人操作技术的实际应用与发展。【免费下载链接】Hy-Embodied-0.5-VLA-UMI项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-Embodied-0.5-VLA-UMI创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考