李一鸣团队提出Physical AI Infra,厘清智能获多轮融资剑指2028年规模化落地

📅 2026/7/3 17:55:03
李一鸣团队提出Physical AI Infra,厘清智能获多轮融资剑指2028年规模化落地
《长安的荔枝》与世界模型的互文《长安的荔枝》是97年清华博导李一鸣很喜欢的故事。故事里小吏李善德要将“一日色变”的鲜荔枝从岭南运到长安需解决保鲜、驿站、路线、补给等一系列环环相扣的难题没有这套完整系统鲜荔枝寸步难行。在李一鸣眼中这个唐朝故事与当下的“世界模型”赛道形成了巧妙的互文Physical AI物理AI的场景、解决的问题是“鲜荔枝”从业者们为达到“运送”目的同样需要构建一整套涵盖数据采集、模型研发、硬件部署的系统方案。世界模型赛道的现状与问题李一鸣认为“世界模型的第一性原理不是走什么技术路线而是最终解决什么问题”所谓的世界模型只是“一匹运送荔枝的马”是解决问题的一条技术路线离开其它环节的配合将毫无价值。然而2026年初当他以清华大学人工智能学院助理教授的身份回到国内看到AI赛道正陷入一场对“世界模型”的巨大FOMO。世界模型是2026年最具迷惑性的概念之一派系林立、众说纷纭非共识和想象力让它成为当下估值泡沫最大的一个赛道。无论视频模型、3D模型还是走VLA视觉 - 语言 - 行动路线的具身大脑只要能和仿真、物理沾上边都将自己划为“世界模型”的阵营。李一鸣团队的Physical AI Infra方案李一鸣觉得比厘清世界模型定义更重要的是厘清一套让各种机器人在各个场景中泛化的系统。近期其团队提出了一套由数据和物理双轮驱动的Physical AI Infra包含两个自研组件数据管线将数据采集量级快速规模化从几十万小时的行业平均量级提升到百万到千万小时物理引擎实现Real - to - Sim - Real的闭环基于真实世界数据构建仿真世界用于机器人对物理世界的强化学习最后在真实世界中执行任务。即便世界模型并非独立组件它仍渗透在这套系统设施的每一个环节中。比如基于采集到的数据系统会将“世界模型”作为预训练的目标在后训练环节“世界模型”又会成为机器人进行强化学习的仿真环境。该基础设施能够实现切割、旋拧、插拔、搅拌、按压、捏取、穿引等精细操作技能的训练并在不同类型的灵巧手、机械臂等本体间跨形态部署同时可适配生产制造、零售服务、酒店运营、餐饮备料、医疗辅助等多元场景。厘清智能的融资与优势这套技术方案被2026年4月成立的「厘清智能」所采用。背靠李一鸣团队这个Physical AI领域的新玩家成立短短两个月内便完成了多轮融资。《智能涌现》独家获悉厘清智能的种子轮融资金额高达数亿元投资方包括顺为资本、红杉中国、高瓴创投、峰瑞资本、星连资本、水木清华校友种子基金、SEE FUND等基金以及智元机器人、灵心巧手、世纪金源等多方产业资本。稀缺性是一级市场押注厘清的重要理由。一方面是软硬一体的人才李一鸣履历横跨空间感知、多模态推理、自动驾驶以及具身智能在纽约大学读博期间他与谢赛宁AMI Labs联合创始人兼首席科学家合作发表了具身视觉推理的研究成果同时他与英伟达联合发表了多篇CVPR与NeurIPS亮点论文并获得了2024年度英伟达奖学金全球仅10位。厘清团队的50余名成员大多是清华的学生平均年龄23岁。另一方面是厘清技术路线的稀缺性李一鸣大胆选择了一条“很重”的路线从数据采集到模型训练到物理引擎全栈自研这在国内相当少见。前期的巨大投入、跨软硬的技术难度已经劝退了一大波公司但李一鸣认为只有打通所有环节信息流才能在不同环节、不同模块中畅通无阻不同环节才能协同优化。李一鸣的规划与目标在李一鸣的规划中今年年底前团队将发布可以跨B端场景的世界模型2028年厘清将实现解决方案的规模化。最终他的目标是交付给客户一套软硬一体的解决方案跨本体、跨场景地解决问题。李一鸣对Physical AI的观点近期《智能涌现》与李一鸣聊了聊他的技术判断以及对世界模型、Physical AI的判断。Physical AI公司不是本体公司也不是模型公司做的不只是世界模型而是一套系统不以技术路线为导向而是以实际问题为导向训练世界模型是为了解决Physical AI物理AI的问题去迭代优化任务的成功率。目标是构建数据和物理双轮驱动的一套生态“世界模型”渗透在每个环节中。新一代的Physical AI团队核心特点是全栈从数采设备到数据管线从可微物理引擎到模型训练全部自建。新时代的具身公司应是一家World Model as Service公司未来随着数据量的快速积累可实现快速的跨本体泛化最终交付给客户的是一套软硬一体系统能根据落地场景和客户预算自动匹配最优硬件方案开箱即用。Physical AI的人才画像是软硬一体清华提供了很好的人才平台团队平均年龄是03年甚至有07年的大一学生。目前这样的人才非常稀缺培养体系还在日渐成熟所以找到好苗子后会自己培养。具身模型与Physical AI的要点具身模型的参数至少要达到语言模型的量级甚至还要比语言模型再高几个量级才有可能谈“智能涌现”。人类数据比真机数据更好scale up规模化全中国有几亿人在一线工作、在家庭中生活带着设备的真人采集数据的效率比操纵机器人采集数据高许多。做一整套Physical AI Infra只靠数据采集不现实还需要很多物理规律现阶段采集到的数据量不支持Physical AI自主泛化到所有场景物理规律现阶段可以补足数据的局限性。厘清智能设计了一套满足物理约束的世界模型方案可以用别人1%的真机数据量训练策略模型达到相同的成功率。世界模型的本质与训练世界模型负责机器和世界的交互语言模型负责机器和人的交互。现在基于LLM做VLM视觉 - 语言模型、做VLA视觉 - 语言 - 行为模型本质上与物理世界不太适配因为语言模型是高度离散化的空间语言是人机交互的界面不是一个模态。世界模型的训练同时需要SFT监督微调加上RL强化学习需要在物理世界中做SFT但物理数据量不够所以要自己采集数据建立数据标准。LLM在后训练过程中可生成任意词元但世界模型必须遵守物理规律所以自研了可微物理引擎让后训练在满足物理约束的前提下进行。全栈打通感知、推理、决策、动作输出并且面向机器和世界交互任务设计的才是“原生世界模型”。VLA是非原生的世界模型JEPA联合嵌入预测架构只能预测状态state但无法输出动作视频生成模型也不是原生世界模型。训练“原生世界模型”关键是如何将物理世界高效tokenization表征团队是全球少数能将表征端tokenization的公司目前团队内部训练的视觉tokenizer表征器用于将物理世界转译为Token效果已经优于Meta的视觉基础模型DINOv3。如何构建Physical AI的Infra是训练世界模型的另一个难题真正的Physical AI Infra能不断优化数据效率提升复杂任务上预训练和后训练的效果或在短程任务上训练后能泛化部署在复杂的长程任务上。Physical AI的规模化落地展望轮臂是适配大多操作场景的硬件落地形态人形机器人想象空间大但技术难度也大目前的负载能力payload会限制其执行需要较大力量和复杂操作的任务对人体各部位进行精准建模也是难题。前期要更积极地与场景方合作数据的规模化、机器的后训练都离不开和真实场景方的合作场景切入模式是先ToB后ToC在B端积累的数据和技能最后都能用到C端。终极目标是做通用Physical AI Infra把这套系统封装为一款通用的Physical AI Infra像iOS之于移动应用一样让各类物理操作任务可以规模化开发和部署。2028年会是Physical AI的一个milestone数采的规模以及电机密度都会实现跃升到时方案才能规模化地落地。