2026 年具身智能数据开启规模化元年,新创公司与大厂齐入局分羹

📅 2026/6/17 19:16:54
2026 年具身智能数据开启规模化元年,新创公司与大厂齐入局分羹
具身智能数据成“香饽饽”新创公司与大厂齐入局2026 年开启数据规模化元年又一门“卖铲子”的生意开始赚钱了。2023 年开始火热的“百模大战”让“卖铲子”的算力硬件商赚得盆满钵满。类似的情况正在具身智能产业“情景再现”数据采集从业者正在密集融资且收获大量订单。3 月光轮智能完成 10 亿元融资成为全球第一个具身数据独角兽并透露今年第一季度拿下 5.5 亿元订单4 月无问智科完成超亿元融资并透露今年第一季度签下的订单金额达到数亿元量级4 月弈人科技完成 Pre - A 轮及 Pre - A 轮连续两轮亿元级融资同时宣布 2025 年收入破亿并盈利2026 年 Q1 具身订单超去年全年营收智元也已分拆成立觅蜂科技。不只是新创公司互联网大厂也盯上了这块肥肉京东发布具身智能数据全链路基础设施计划发动 60 万人众包采集如快递员、骑手佩戴设备目标两年内积累 1000 万小时人类真实场景视频数据百度选择了“数据超市”的模式。行业热度陡增这也是觅蜂科技董事长兼 CEO 姚卯青所言“在具身智能尚未真正大规模商业化之前数据作为基础设施会比终端应用更早形成商业回报”的底层逻辑。具身智能的数据来源主要包含四类位于金字塔顶层的是遥控真机即遥操作获得“真机数据”数据质量最精准成本也最贵但却是人形机器人落地的关键仿真数据/合成数据处于中层成本低、可规模化能够弥补当前真机数据的不足人类视频包含互联网视频、人类行为数据处于金字塔底层来源广泛、泛化性强UMIUniversal Manipulation Interface通用操作接口协议是具身智能领域的一种低成本、无本体的数据采集范式与技术标准。发展至今数据采集赛道大致也可以分为四大流派“真机数据”对应的如智元等头部机器人公司“本体 数据”闭环运作数据业务是内部能力的自然外溢仿真数据/合成数据对应的则是定位为数据基础设施服务商的初创公司比如光轮智能跨界平台型巨头如京东、中国移动等依靠产业场景等优势入局采用混合采集模式“UMI 型公司”如鹿明机器人、松灵机器人等则专注于提供标准化、模块化的采集硬件。不难发现2026 年已然成为“具身智能数据规模化元年”各类厂商正依靠“数据服务商”的新定位凭借刚性需求、高壁垒和可复制的商业模式在具身智能产业攫取利益。缺口超 99% 催生“合成数据”新独角兽已有 3 家公司拿下数亿订单。具身智能大模型VLA/世界模型的训练需要海量、多模态、高保真的物理交互数据。然而截至 2026 年初全球高质量真实物理交互数据总量仅约 50 万小时而行业共识认为训练通用具身模型至少需要千万小时级数据缺口超过 99%。这种供需失衡导致数据成为稀缺资源买方处于“有多少买多少”的状态。于是数据采集便成为了具身智能产业细分赛道的新型“铲子”也再一次印证“数据先行、铲子先富”的逻辑。需要注意的是光轮智能、无问智科、弈人科技等明星初创公司并非全部诞生在具身智能产业发展期更多则是成立于智能驾驶浪潮中且多选择走“仿真数据/合成数据”路线并逐步向“真机数据”扩展走上融合发展新道路。2023 年随着大型语言模型LLM和视觉语言模型VLM的突破业界开始普遍探索将“大脑”赋予机器人身体实现了从传统自动化向具备感知、决策能力的“具身智能”跨越。这一年的 2 月智元成立并迅速推出首款人形机器人引发了资本市场和科技界的广泛关注被视为中国具身智能创业浪潮的代表性事件。成立于 2023 年 1 月的光轮智能即定位于合成数据公司致力于为企业落地 AI 提供合成数据解决方案。2026 年 3 月该公司官宣完成 10 亿元 A 及 A 轮融资本轮融资完成后该公司也成为了全球首个具身数据领域的独角兽企业5 月光轮智能又获得由蚂蚁集团领投的新一轮融资投后估值超过 20 亿美元在短短两个月内实现估值翻倍。无问智科虽然成立于 2022 年 11 月但却是在半年后的 2023 年 5 月方才正式启动运营。在其官网介绍中无问智科多次提及智能驾驶主要是应用 AI 驱动的大模型仿真技术为智能驾驶汽车上路保驾护航。2024 年具身智能产业热度持续攀升明星独角兽中的智元、宇树科技均在这一年接连获得 2 轮投资。于是乘着具身智能热潮无问智科在 2024 年 8 月官宣天使轮融资时适时提到“公司立足和深耕于智能驾驶/自动驾驶赛道将逐渐拓展到机器人及具身智能赛道”。2026 年 4 月无问智科官宣超亿元新融资时公司定位已更新为“物理 AI 数据基座企业”。据介绍基于全国首个虚实融合闭环的长三角德清具身智能数据采集训练场无问智科日产数据上千小时形成万级规模化合成数据与千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业2026 年 Q1 更与字节跳动、无界动力、章鱼动力等签署订单目前在手订单数亿元本年度营收将突破超亿元。光轮智能则已经将人类数据与仿真打造成一套闭环的基础设施并且人类数据交付量全球第一。它的人类视频数据产品覆盖 2.5 万 环境节点、10 万 任务种类累计交付超 150 万小时高质量人类数据。2025 年该公司全年营收实现 10 倍增长4 月份官宣公司 2026 年 Q1 单季预计收入超过 25 年全年总和5 月份官宣 2026 年 Q1 新增 5.5 亿元订单。更加典型的例子莫过于成立于 2013 年 3 月的弈人科技利用自动驾驶积累的车辆感知网络适时转型采集具身智能数据于 2025 年实现 AI 数据业务收入过亿元在国内率先完成 AI 数据正向盈利。同时公司在具身智能领域已落地多场景应用并斩获头部客户订单仅 2026 年一季度就获得了具身智能数据新增订单超亿元。已然过会成立于 2016 年的宇树科技招股书显示2022 年该公司用时 6 年实现约 1.23 亿元营业收入但 2024 年方才“扭亏为盈”实现约 9547.47 万元净利润。作为对比光轮智能、无问智科等新创公司成立仅 3 年便在 2026 年实现过亿营收已然成为“卖数据的先赚钱”的例证之一。智元下场孵化京东、百度、中国移动都来了。随着硬件本体的逐步成熟高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据成为了未来五年决定具身智能商业化落地的胜负手。深谙于此的智元合伙人、高级副总裁、具身业务部总裁姚卯青早在 2004 年 5 月就牵头建成行业规模最大4000 平米、场景最丰富的数采超级工厂——部署近百台远征 A2 - D 专机实现单机单日千条数据的极速采集也是当前“真机数据”的代表性玩家。仅仅半年后智元就联合上海人工智能实验室、国家地方共建人形机器人创新中心及上海库帕思共同开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World。凭借于此选择“本体 - 数据 - 模型 - 场景”重度耦合战略闭环的智元作为整机厂商代表在 2026 年 4 月的评选中与独立数据提供商——光轮智能、国家级公共平台——国家地方共建人形机器人创新中心成为国内具身智能数据赛道的 Top 3。姚卯青不止一次地强调当前机器人行业的瓶颈不是算力而是数据“高质量的真机数据是实现智能涌现的关键前提”。他还指出当前行业中存在大量仿真模拟数据但仿真模拟数据无法替代真实物理交互中产生的细粒度感知信息。智元的策略是“以真机数据为主仿真模拟为辅”只有真实场景中采集的数据才能真正驱动机器人智能的质变。公司内部也有一个清晰的量化目标两年内积累千万小时级别的真实场景数据。上述目标的实现觅蜂科技数据采集体系的支撑同样至关重要。2026 年 2 月姚卯青推动智元业务拆分出觅蜂科技并出任董事长兼 CEO。该公司聚焦具身智能数据基础设施赛道深度应用并推广 UMI 技术但并非单一的“UMI 型公司”打造独立开放的一站式物理 AI 数据服务平台。成立仅 10 天觅蜂科技就完成了数亿元种子轮与天使轮融资。据澎湃科技消息具身智能数据当前总体定价区间在 200 - 500 元/小时。其中机器人在现实场景中实际操作采集的真机数据因最适合训练落地模型需求最旺盛价格也最贵当前国内市场价格在 500 - 1000 元/小时。另据姚卯青透露随着产能逐步稳定不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时 1000 元无本体数据未来可能稳定在 300 - 400 元。数据稀缺、价格处于“高点”于是在具身智能玩家之外嗅觉灵敏的互联网大厂、工业巨头步调一致地快速行为今年以来接连下场盯上数据采集“这块肥肉”强势跻身具身智能产业链。其中互联网大厂如百度走上了“数据超市”模式。4 月 10 日百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业推出“具身智能数据超市Beta 版”首创层级化、可扩展的数据标签体系加速具身智能规模化落地。值得一提的是尽管以“UMI 协议”数据为主鹿明机器人同样选择了“数据超市”这一模式该公司于 2026 年 3 月推出了行业首个“FastUMI Pro 数据超市”。伴随大模型对数据需求维度的几何级膨胀单一技术路线已无法满足“规模、成本、精度、泛化”的苛刻要求。行业全面迈向多源融合采集时代以人类视频注入通用物理常识以仿真合成数据海量覆盖长尾边界以 UMI 采集分布式扩充真实交互动作最后依托高精度遥操作进行垂直场景的专家级微调。以京东为例今年 3 月 16 日其宣布建设一个具身智能数据采集中心计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景记录视觉、触觉、空间轨迹等多维度数据。将发动包括内部超 10 万员工及外部最多 50 万人员在内的数十万人参与采集计划于一年内积累 500 万小时人类真实场景视频数据两年内总时长突破 1000 万小时并同步采集 100 万小时机器人本体数据。据悉京东具身智能数据采集中心主要采用基于可穿戴设备的人类第一视角Egocentric真实场景数据采集方式并辅以真机遥操作采集属于无本体数据No - Body Data与多模态真实交互数据相结合的混合采集模式。中国移动同样如此5 月 8 日其宣布围绕家庭生活场景推出 1200 平米的“灵犀数霄”具身智能训练场核心是一套覆盖数据采集、数据合成、数据处理、数据应用全链路的数据闭环是融合了真机遥操作与无本体轻量化采集的混合数据采集体系并辅以仿真合成数据。不难发现在具身智能产业链上数据采集这个“铲子生意”已经成为具身智能数据从“分散采集”走向“平台化供给”。它不再是某家机器人公司的附属业务而是正在独立跑出一套商业逻辑成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。