世界模型:命名混乱却成产业必争之地,能否赋予机器理解世界的能力?

📅 2026/6/30 3:48:41
世界模型:命名混乱却成产业必争之地,能否赋予机器理解世界的能力?
【热点现象世界模型引发关注】世界模型是眼下 AI 圈最热、却也最让普通人一头雾水的概念。有人说它是让 AI 做梦的能力有人说它是自动驾驶的仿真器还有人说它是机器人大脑。李飞飞、Yann LeCun、OpenAI、Google DeepMind、英伟达乃至国内阿里、腾讯、华为、车企各有各的定义。那么世界模型到底想解决什么问题这些学者和大厂为什么会对它着迷这个概念为什么在名字都没统一的时候就已经成了产业必争之地【1. 一句话理解世界模型是什么】想象你站在路口准备过马路眼睛看到绿灯、车辆、行人大脑会在零点几秒内构建一个微型场景如果我现在走那辆车会不会加速那个骑车的人会不会突然转弯你并没有真的走出去而是在脑子里先把几种可能过了一遍。心理学家把这种能力叫“心智模型”AI 研究者则把它叫“世界模型”。换句话说世界模型就是机器里的一个“脑内沙盘”它不是简单识别画面里有什么而是能预测接下来会发生什么并在不真正行动的前提下反复试错。对自动驾驶来说它可以生成暴雨、暴雪、异型障碍的虚拟考卷对机器人来说它可以让人形机器人在仿真世界里摔上十万次再出门对游戏和影视公司来说它可能是一个可以无限探索的平行宇宙。2026 年“世界模型”这个词出现在科技报道里的频率已经超过了它的定义清晰度。阿里做了 Qwen - AgentWorld、HappyOyster、Qwen - RobotWorld分别指向语言世界、虚拟世界和物理世界腾讯的 HY - World 2.0 强调 3D 可编辑世界蔚来、小鹏、理想更愿意说“驾驶世界模型”或“世界行为模型”华为、百度在公开材料里甚至不常单独使用这个词。命名的混乱让这个概念看起来像一个筐什么都能往里装。但所有叫法背后有一个共同的内核让机器在真正行动之前先在内部建立一个可推演、可复盘的环境。这个环境可以是像素、可以是三维结构、可以是物理参数、也可以是抽象状态。目标都是降低对真实数据的无限依赖把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。名字不统一恰恰说明世界模型正处在从学术概念向产业基础设施过渡的早期阶段。【2. 思想的源头世界模型从何而来】2.1 Kenneth Craik最早说出“脑内小模型”的人世界模型的思想比深度学习早了大半个世纪。1943 年苏格兰心理学家 Kenneth Craik 在《解释的本质》一书中提出人类大脑会构建现实的“小规模模型”用来预测和理解外部事件。Craik 当时只有 31 岁是剑桥大学心理学实验室的学者二战期间还在英国从事应用心理学研究。他的书出版两年后他就因自行车事故去世年仅 33 岁。但这个想法却被保留了下来人类不需要完整复刻世界只需要一个足够好用的内部模型就能在行动前进行预演。这个观点和今天 AI 世界模型的核心几乎一致。机器也不用记住世界每一个细节而是学习世界运行的规律并在需要时推演未来。2.2 Marvin Minsky想让机器拥有常识框架的人人工智能领域同样早有呼应。1960 年代Marvin Minsky 在麻省理工学院提出“框架理论”。他是 MIT AI 实验室的联合创始人1969 年图灵奖得主常被看作人工智能学科的奠基人之一。框架理论试图用结构化的知识框架来捕捉人类关于世界的常识进门要先找门把手餐厅里通常有桌椅物体受重力会下落。Minsky 想做的正是今天世界模型仍未完成的事——让机器拥有一个结构化、可推演的世界常识库。2.3 David Ha 与 Jürgen Schmidhuber把世界模型带回深度学习主流强化学习领域则从另一条路接近了同一个目标。2018 年David Ha 与 Jürgen Schmidhuber 在 NeurIPS 发表的论文《Recurrent World Models Facilitate Policy Evolution》把“世界模型”这个术语重新带回了深度学习主流。David Ha 当时任职于 Google Brain后来成为独立研究者。他的工作风格偏工程化善于用简洁的架构做出惊艳的 Demo。Jürgen Schmidhuber 是瑞士 AI 实验室 IDSIA 的联合创始人长短期记忆网络 LSTM 的发明者之一在 AI 领域以敢言和独立见解著称。他有时被称为“现代 AI 之父”虽然这个称号有争议但他的学术影响力毋庸置疑。他们的架构很简洁用 VAE 把高维画面压缩成低维潜在向量用 RNN 学习这些向量随时间的变化再用一个简单的控制器在“想象”中训练策略。智能体先在学到的世界模型里做梦再把策略迁移回真实环境。这篇论文入选了 NeurIPS 口头报告直接启发了后来的 Dreamer 系列也把“世界模型”从一个心理学概念变成了深度学习里的工程目标。【3. 学者们眼中的世界模型】3.1 Yann LeCun不要只会生成视频要理解物理Yann LeCun 杨立昆是法国人纽约大学教授Meta 首席 AI 科学家。他是卷积神经网络 CNN 的发明者之一2018 年与李飞飞的博士导师 Geoffrey Hinton、Yoshua Bengio 共同获得图灵奖三人被誉为“深度学习三巨头”。LeCun 一直对当前大语言模型的路径持批评态度他认为仅靠预测下一个词无法产生真正的智能。2022 年他在一篇名为《A Path Towards Autonomous Machine Intelligence》的文章中提出真正的智能需要一个可配置的预测世界模型。目标不是生成文字或画面而是理解物理世界的规律并预测行动后果。他甚至批评继续堆叠大语言模型是“胡扯”认为智能的核心在于学到真实世界的物理结构。JEPA 是这条路线的技术载体。JEPA 全称 Joint Embedding Predictive Architecture即“联合嵌入预测架构”。与在像素空间预测下一帧不同JEPA 在抽象的表示空间里模拟世界状态的变化。打个比方视频生成模型是在画下一幅画JEPA 则是在心里“感觉”接下来会发生什么。2023 年的 I - JEPA、2024 年的 V - JEPA、2025 年的 LeJEPA、2026 年的 LeWorldModel构成了一个持续演进的体系。LeCun 还引入了“系统 1 / 系统 2”的概念系统 1 是直觉性快速反应系统 2 是调用世界模型进行深思熟虑的推理与规划。最新理论工作甚至证明在某些条件下JEPA 学到的表示能够与真实物理变量建立线性对应关系即模型在数学意义上学到了物理结构而不只是一种好用的编码。3.2 李飞飞用“行动—观察”闭环给世界模型分类李飞飞是斯坦福大学计算机科学教授ImageNet 数据集的主要创建者。ImageNet 在 2012 年催生了深度学习革命她也因此被称为“AI 教母”。她曾任 Google Cloud AI 首席科学家2023 年创立 World Labs专注于空间智能和 3D 世界模型。2024 年她因推动 AI 民主化和医疗等领域的应用获得多项荣誉是当今 AI 领域最具影响力的华人科学家之一。2026 年 6 月李飞飞与 World Labs 团队发布了一篇被广泛转载的文章试图给混乱的世界模型概念建立分类学。她援引强化学习中的 POMDP也就是“部分可观测马尔可夫决策过程”。这个概念听起来复杂其实描述的是一个很简单的循环智能体采取行动行动改变世界状态智能体获得观测再依据观测采取下一步行动。她指出所有被称为世界模型的系统本质上都是这个循环在不同方向上的投影每一类只输出循环中的一个片段。据此她把世界模型分为三类。第一类是渲染器输出观测即供人眼观看的像素典型代表是视频生成模型和 Google Genie 3优化目标是视觉保真度。第二类是模拟器输出状态即在几何、物理、动力学层面忠实的世界表征典型代表是 NVIDIA Omniverse 和 World Labs 的 Marble优化目标是结构准确性。第三类是规划器输出行动即给定观测和目标后回答“下一步该做什么”典型代表是 VLA 和 World Action Models。李飞飞认为这三类能力的底层依赖的是同一种知识最终趋势是走向统一的世界模型。3.3 清华 FIB - Lab世界模型只有两类理解世界或预测未来清华大学 FIB - Lab 是一个长期研究通用人工智能、具身智能和机器人学习的团队。FIB 通常被理解为“未来智能与大脑”相关实验室隶属于清华大学智能产业研究院。该团队在世界模型和机器人领域发表过大量综述和论文是国内研究这一方向的重要力量之一。2026 年他们发布了综述《Understanding World or Predicting Future A Comprehensive Survey of World Models》用另一种方式切分了这个领域。他们把世界模型的核心功能分为两大类理解世界和预测未来。理解世界强调构建外部环境的隐式表征以支持决策代表是 Dreamer 系列和基于大语言模型的世界知识。预测未来强调显式生成未来状态典型是 Sora、Genie 3、Cosmos 等视频或 3D 环境生成模型。这个分类的好处是更贴近工程实践前者服务强化学习和决策后者服务生成与仿真。3.4 北大 OpenWorldLib给世界模型做一个标准化工具箱2026 年 4 月北京大学联合快手等机构发布了 OpenWorldLib。北京大学是国内人工智能基础研究重镇拥有机器感知与智能教育部重点实验室等机构快手则是国内短视频巨头近年来在大模型和多模态生成上投入颇多。两者联合发布 OpenWorldLib显示出学术界和产业界都开始意识到世界模型需要统一标准和可复用组件。OpenWorldLib 首次尝试给世界模型一个标准化定义一个以感知为核心、具备交互和长期记忆能力的模型或框架用于理解和预测复杂世界。他们批评把世界模型简单等同于“预测下一帧”过于狭隘认为真正的世界模型必须体现对物理规律的真正理解。OpenWorldLib 把世界模型拆成五个核心模块操作员、合成、推理、表示、记忆再由流水线模块统一协调。这个框架更像一个工具箱目标是让不同研究团队能够像拼乐高一样组合模块。【4. 大厂们眼中的世界模型】4.1 OpenAISora 是“世界模拟器”OpenAI 是当前全球最有影响力的 AI 公司之一。它以 GPT 系列大语言模型和 ChatGPT 闻名2024 年发布 Sora 后再次引发全球对视频生成和世界模拟的关注。2024 年 2 月OpenAI 发布 Sora 的技术报告标题就叫《Video Generation Models as World Simulators》直接把视频生成模型定位成世界模拟器。Sora 不依赖显式的 3D 建模或物理引擎而是在大规模视频数据上训练生成模型使其自发涌现出 3D 一致性、长期一致性、物体持久性、简单世界交互等能力。OpenAI 认为视频生成模型的大规模扩展是构建物理世界通用模拟器的一条极具前景的道路。但 Sora 的局限也很明显无法准确模拟玻璃破碎等基本物理过程长时间样本中会出现不一致物体可能不受控制地出现。所以它更多是一个方向性宣言而不是成熟定义。4.2 Google DeepMindGenie 3 是实时可交互的通用世界模型Google DeepMind 由 Google 在 2014 年收购英国 AI 公司 DeepMind 后组建Demis Hassabis 是联合创始人兼 CEO。DeepMind 曾开发出 AlphaGo、AlphaFold 等里程碑式系统是全球 AI 研究的前沿阵地之一。Demis Hassabis 本人是计算机科学家、神经科学家也是游戏设计师长期关注通用人工智能。2025 年 8 月Google DeepMind 发布 Genie 3官方定义是“首个实时、可交互的逼真世界模型”。它可以根据简单文本描述生成可探索的 3D 环境运行帧率达到 20 - 24 fps支持角色控制、可提示的世界事件和长达一分钟的交互记忆。Genie 3 采用自回归方式逐帧生成基于 Google Maps 街景数据锚定现实世界被定位为通向 AGI 的关键里程碑。4.3 英伟达Cosmos 是物理 AI 的“世界基础模型”英伟达由黄仁勋、Chris Malachowsky 和 Curtis Priem 在 1993 年创立黄仁勋长期担任 CEO。公司最初以图形芯片 GPU 起家过去十年因为 AI 训练对算力的爆炸式需求成为全球 AI 基础设施的核心供应商。黄仁勋近年来频繁提出“物理 AI”和“AI 的下一波是机器人”等判断英伟达也持续推出面向机器人、自动驾驶和仿真的软硬件平台。2025 年 1 月英伟达发布 Cosmos定位为“世界基础模型平台”。它不是单一模型而是一系列可以预测和生成虚拟环境未来状态的物理感知视频模型分为 Nano、Super、Ultra 三个等级基于 2000 万小时真实世界数据训练。Cosmos 的野心是成为物理 AI 的底层基础设施服务机器人、自动驾驶、工业仿真等场景。英伟达还将其开源允许商业使用。4.4 国内大厂不叫世界模型也在做世界模型国内企业很少在公开材料中给出哲学化的定义而是直接落到产品和场景。阿里的三款产品分别覆盖语言世界模拟、虚拟世界生成和机器人物理世界腾讯 HY - World 2.0 聚焦 3D 可编辑世界字节 Seed 世界模型瞄准年底达到 Genie 3 的 SOTA 水平华为盘古大模型智能驾驶版强调物理规律学习与闭环仿真百度 Apollo ADFM 把世界模型能力融入自动驾驶大模型小米 OneVL 试图把 VLA 与世界模型统一。车企里蔚来 NWM、理想重建加生成世界模型、小鹏 X - World、吉利 WAM、比亚迪预研、长城 VLA 加世界模型核心用途都是端到端智驾训练和长尾场景生成。【5. 三条技术路线世界模型有哪些实现方式】从工程角度看当前世界模型大致有三条主要技术路线可以用三种比喻来理解。第一条是“画画”路线也就是生成式视频模型。Sora、Genie 3、Cosmos、可灵、Pika 都属于这一类。核心能力是在像素空间生成未来帧优势是视觉真实感强、数据门槛低普通人一眼就能看懂。劣势是物理一致性弱画面看久了会发现物体变形、重力失效、时间线混乱。第二条是“心算”路线以 LeCun 的 JEPA 和 Ha Schmidhuber 的 RNN 世界模型为代表。核心思想是不预测像素而是预测抽象表征。优势是效率高、对物理结构的学习更稳定劣势是表征空间的可解释性差、工程落地周期长。它更像人类运动员的直觉不用真的把动作在脑子里逐帧放电影也能凭身体感觉预判球的落点。第三条是“搭积木”路线以 NVIDIA Omniverse、World Labs Marble、腾讯 HY - World 为代表。核心思想是直接生成带有几何、物理、动力学属性的三维环境。优势是精确可控、可编辑、可验证劣势是数据稀缺、计算成本高、泛化能力受限。它更像工程师的 CAD 软件可以精确测量、反复调整但离自然世界还有距离。三条路线目前各有阵地但边界正在模糊。视频生成模型开始加入物理约束3D 模拟器开始引入生成式能力JEPA 架构开始与 VLA 融合成 WAM。李飞飞预言的统一世界模型正是三者融合的结果。【6. World Action Model从“看世界”到“动手做”】2026 年 5 月复旦 OpenMOSS 团队联合多家机构发布了 WAM 综述正式提出 World Action Models 这一范式。复旦 OpenMOSS 是国内最早推动大模型开源生态的团队之一Mooss 系列模型在中文社区有较高知名度。WAM 的核心定义是未来状态预测和动作生成必须在同一个策略内联合学习而不是先训一个 VLA 再外挂一个世界模型当辅助。用通俗方式对比VLA 是“看到画面、听懂指令然后做出动作”世界模型是“知道当前状态和动作能想象出下一帧画面”WAM 则是“看到画面、听懂指令同时想象出下一帧画面并做出动作”。这三者合在一起才是机器人真正需要的“知行合一”的能力。WAM 分为 Cascaded 和 Joint 两种架构。Cascaded 先生成未来帧再解码动作工程上好搭建但延迟高、错误容易传导。Joint 用单一模型同时输出未来和动作理论上更鲁棒但训练目标设计复杂。英伟达 Jim Fan 在 2026 年红杉 AI Ascent 大会上甚至断言“VLA 已死世界动作模型是未来”。Jim Fan 是英伟达高级研究科学家GEAR 团队负责人研究领域涵盖机器人、仿真和具身智能。虽然这句话争议很大但足以说明这个方向的热度。【7. 产业框架世界模型产业链如何分层】世界模型的产业链正在从论文和 Demo 走向分层基础设施。可以把它想象成盖房子有人挖矿炼钢有人生产预制板有人在上面盖住宅、商场和工厂。上游是基础支撑层包括高精度数据采集、算力服务和传感器硬件。数据采集涉及高精地图、空间扫描、视频采集、遥操作等算力服务以 GPU 和云服务器为核心传感器硬件包括激光雷达、摄像头、IMU 等。英伟达凭借 GPU 在这一层占据隐形霸主地位几乎所有世界模型训练都离不开其算力支持。成本是这一层的核心痛点训练千亿级参数的世界模型需要数千个 GPU单次训练成本可达数百万美元。中游是技术平台层分为通用型平台和垂直型平台。通用型平台跨行业提供通用能力代表是英伟达 Omniverse、商汤开悟、华为盘古、阿里通义系列。垂直型平台聚焦特定行业如自动驾驶世界模型、建筑世界模型、具身智能世界模型。平台型企业正在通过生态整合占据主导预计到 2030 年可能占据产业链 50% 以上的市场份额。下游是场景应用层覆盖自动驾驶、具身智能、智能建造、游戏娱乐、空间服务、医疗模拟、气候预测等领域。汽车、电子、医疗被认为贡献了当前行业 60% 以上的营收。自动驾驶是应用成熟度最高的场景几乎所有主流车企都已把世界模型纳入研发核心流程具身智能是最被看好的新兴方向工业机器人使用世界模型辅助训练的比例已经超过 60%。【8. 为什么概念不统一反而是好事】世界模型概念的混乱常常让外界觉得这是一个被炒作出来的风口。但从产业史的角度看概念不统一往往是技术革命早期的常态。云计算早期有 IaaS、PaaS、SaaS 之争大数据早期有 Hadoop、NoSQL、数据仓库之争人工智能早期甚至有符号主义、连接主义、行为主义之争。命名的分歧反映的是不同群体从不同角度切入同一个宏大问题的过程。当前世界模型的分歧本质上是对“世界”到底应该被压缩成什么形态的争论。做视频生成的人认为世界是像素序列做 3D 引擎的人认为世界是几何和物理做自动驾驶的人认为世界是交通规则和驾驶行为做机器人的人认为世界是动作后果。每一种压缩方式都对应不同的数据、算力和应用场景。在产业早期这种分歧是必要的它允许不同路线并行试错。但分歧之下目标已经收敛。无论是 LeCun 的 JEPA、李飞飞的 POMDP 闭环、Sora 的视频生成、Genie 3 的 3D 交互还是国内大厂的各类产品最终都指向同一个能力让机器拥有一个可推演、可复盘、可泛化的内部世界从而在现实世界中行动得更安全、更高效、更通用。语言模型赋予了机器谈论世界的能力世界模型则试图赋予机器理解、想象、推理并与世界交互的能力。概念会统一但那将是格局尘埃落定之后的事。在此之前命名的混乱恰恰是世界模型进入主战场的标志。那么未来世界模型的命名何时能统一它又将如何改变我们的生活这些问题值得我们深入思考。