从Next-Token到Next-State的世界模型

📅 2026/7/1 15:13:20

一、从语言到世界AI的新跨越Next-Token的辉煌与边界过去几年大语言模型凭借“预测下一个Token”的训练范式横扫千军。从ChatGPT到ClaudeAI在文本生成、代码编写、逻辑推理等数字原生任务上展现出了惊人的能力。这套范式如此成功以至于业界一度认为“只要规模足够大智能就会涌现”。然而当AI试图走出数字世界、踏入物理现实时Next-Token的局限性开始暴露——它能写出完美的论文却无法预测一个苹果从桌上掉落后的运动轨迹它能解析复杂的法律条文却搞不懂“把水杯推下桌沿”会引发什么后果。物理世界需要“状态”而非“Token”根本原因在于互联网文本是人类语言的编码而非物理世界的编码。语言可以描述重力但不包含重力本身可以提及“惯性”却不携带惯性的动量方程。要让AI真正理解并作用于物理世界就必须让它学会预测“下一个物理状态”而不仅仅是“下一个文字符号”。这正是世界模型的核心使命。二、什么是“预测下一个状态”状态的定义与预测逻辑“世界状态”是对某一时刻真实世界所有相关属性的完整刻画。以自动驾驶为例当前状态包括车辆位置、速度、周围障碍物距离、路面摩擦系数等。Next-State Prediction的任务是基于当前状态和即将执行的动作推演下一秒状态的变化。智源研究院院长王仲远用一个直观场景解释一瓶未开封的矿泉水和一杯满装咖啡放在桌边人类能凭直觉预判两者坠地后的不同后果——水瓶可能弹跳但咖啡必然泼洒四溅。这种对物理因果的预判能力正是人类世界模型的体现而今天的AI模型还远未掌握。视频生成不等于世界模型值得警惕的是当前许多标榜“世界模型”的研究实为视频生成模型。它们能生成逼真的未来帧画面但画面中的物理规律可能是错误的——物体可能穿墙而过液体可能违背重力向上流。真正的世界模型必须内嵌物理约束能够回答“如果推这个箱子它会滑多远、朝哪个方向”这种反事实推理问题而不仅仅是生成一段好看的视频。三、为什么世界模型是AGI的必经之路认知闭环与规划能力人类智能的核心在于“预测-行动-验证”的闭环。我们每做一个动作大脑都会提前模拟其后果据此调整策略。世界模型为AI提供了同样的能力——在真实执行之前先在内部“预演”一遍评估风险与收益选择最优路径。这种“想象力”让AI不再依赖海量试错而是像人类一样通过少量尝试即可掌握新技能。具身智能的刚需对于机器人、自动驾驶、无人机等具身智能体而言没有世界模型就等于“盲人开车”。它们必须理解物体恒存性、摩擦力、碰撞响应等基本物理常识才能在未知环境中鲁棒运行。2026年智源大会形成的共识是具身智能的大脑必须包含世界模型否则VLA视觉-语言-动作模型只能拼凑感知与动作无法实现真正的理解与泛化。四、技术路线与产业竞速三大技术路径当前构建世界模型主要有三条技术路径一是基于扩散模型从噪声中逐步生成未来状态二是基于Transformer的自回归预测将状态序列视为多模态Token三是基于物理引擎的可微模拟将经典力学方程嵌入神经网络。三者各有优劣行业尚未收敛于统一范式但融合趋势已现。资本与巨头集体押注范式信号发出后产业界迅速响应。2026年上半年国内极佳视界完成15亿元融资智平方B轮超10亿元千寻智能一季度连融四轮总计45亿元。海外同样狂热——杨立昆创立的AMI Labs获10.3亿美元种子轮李飞飞的World Labs完成10亿美元融资。摩根士丹利预测到2035年世界模型赋能的产业规模可达10万亿美元。五、挑战与未来展望当前瓶颈因果与复杂度王仲远坦承当前模型在因果推理和复杂动态系统预判上存在显著短板。视觉信息难以完整捕获接触力、材料属性等隐式物理量360度环绕视觉也无法反推出摩擦系数。此外训练世界模型需要海量高质量物理交互数据而这类数据极度稀缺仿真到现实的迁移sim-to-real仍面临巨大鸿沟。从“能用”到“好用”的漫长之路从Next-Token到Next-StateAI正站在从“符号生成”走向“现实理解”的历史拐点。这条路能否走通取决于数据、算力、算法的协同突破。但方向已定——未来的AI必须拥有对物理世界的认知与预测能力而不是仅仅做一个聪明的“文字游戏高手”。当世界模型真正成熟AI将从屏幕中走出来进入由重力、动量、材料构成的真实世界开启全新的智能纪元。

新闻详情

相关阅读

低门槛搭建高转化圈子社群小程序：Uniapp 多端快速上线，同城 / 兴趣 / 行业圈：多端适配运营级源码！

MyTV-Android：让老旧电视焕发新生的免费开源电视直播应用终极指南

嵌入式系统电源管理：TPS65263与PIC18F86J16高效组合方案

基于Si4731和STM32的数字收音机设计与实现

glu32.dll 缺失影响图形程序？OpenGL 组件修复思路

从项目管理看企业活动策划：如何把一场发布会拆解为可交付系统

企业知识图谱建设核心逻辑：跳出浅层优化误区，构筑AI时代长效行业竞争壁垒

物联网安全连接实战：A5000与STM32F412ZG的TLS协议实现

Windows驱动管理终极指南：Driver Store Explorer完全使用教程

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！