阿里通义团队打造AI世界模拟器,让智能体在虚拟环境中练就真功夫 📅 2026/6/28 3:58:55 这项由阿里巴巴通义Qwen团队完成的研究以技术博客和预印本形式于2026年6月23日发布论文编号为arXiv:2606.24597有兴趣深入钻研的读者可通过这一编号检索完整技术报告。在聊这项研究之前先来设想这样一个场景你正在训练一名新手厨师。理想情况下你希望他在真实厨房里反复练习但真实厨房里有昂贵的食材、随时可能发生的厨房事故以及难以人为制造的极端情况。于是你决定先给他一本极度逼真的模拟练习手册里面不仅记录了各种食材的味道和反应还能精确模拟锅里着火了怎么办或食材缺货时如何替换等真实厨房里极少碰到的麻烦场合。厨师在这本手册里练到炉火纯青再进真实厨房时已然胸有成竹。通义团队在这项研究中做的事与这本模拟练习手册惊人地相似。他们构建的系统叫做Qwen-AgentWorld它的核心雄心是让一个语言模型真正理解当AI做出某个动作之后这个世界会发生什么——也就是构建一个能够模拟虚拟世界运行规律的大脑。这在AI领域有个专门的术语叫做世界模型World Model。而Qwen-AgentWorld是目前首个能够同时模拟七个不同智能体操作领域的语言世界模型覆盖范围从终端命令行到手机应用界面从代码调试工具到网页浏览器一应俱全。一、为什么AI需要一本世界模拟手册要理解这个问题先得明白现在的AI智能体是怎么工作的。当一个AI助手帮你搜索信息、修改代码、操作电脑时它的工作流程分为两个关键部分一部分是决策也就是根据当前情况决定下一步做什么另一部分是感知也就是观察做完这个动作之后环境发生了什么变化。过去几年里研究界把绝大部分精力都放在了打磨AI的决策能力上也就是让AI学会更聪明地选择动作。但对于感知这一侧——AI如何理解和预测环境的反应——却几乎没有专门研究。这就像培养一个棋手只教他下棋策略却从不让他理解棋盘上每一步棋的后果。更重要的是理论研究已经严格证明了一件事任何能在足够广泛任务上表现优秀的AI智能体内部必然已经形成了某种形式的世界模型。换句话说世界模型不是可选的锦上添花而是通往真正通用智能的必经之路。通义团队的研究正是在这个背景下展开的。他们意识到现有的AI智能体研究存在一个巨大空白没有人专门为语言环境中的AI建立一个通用的世界模型。他们要填补的正是这个空白。在整个研究框架下Qwen-AgentWorld被设计成两种不同的用途。其一是作为独立的环境模拟器——AI智能体在里面练习就像厨师在模拟厨房里练刀工之后再走进真实厨房其二是作为智能体本身的内置知识——让AI在做出动作之前先在脑子里过一遍这个动作会带来什么后果再决定要不要真的去做。这两种用途研究团队分别称为解耦和统一策略后文会详细展开。二、七个领域一本通用模拟手册Qwen-AgentWorld能够模拟的七个领域覆盖了当代AI智能体最常用的操作场景。第一个领域是MCP模型上下文协议服务器AI通过结构化的工具调用访问文件、数据库等资源世界模型要能预测这些工具调用返回的内容。第二个是搜索引擎AI发出搜索请求世界模型要能生成符合真实搜索结果规律的返回内容包括网页摘要、链接排序等。第三个是终端命令行AI输入Shell命令世界模型要能准确预测命令执行后终端显示的内容包括错误信息、文件系统变化等。第四个是软件工程环境AI读取和修改代码、运行脚本世界模型要能模拟代码执行的结果。对于图形界面领域研究团队选择了一种特别的表示方式不用图片像素而用无障碍树和UI视图层级这样的文本结构来描述界面状态。这就好比不是用照片来描述一个房间而是用一份精确的文字清单来描述房间里每件家具的位置和状态。这样语言模型就能直接处理界面信息而无需视觉感知能力。基于这种方式研究覆盖了安卓应用界面、网页浏览器、以及电脑桌面操作系统三个图形界面领域。在每个领域中世界模型面对的挑战各不相同。终端领域需要深刻理解Linux系统的运行逻辑能追踪跨多轮命令的状态变化例如某个文件是否被创建、环境变量是否被修改。MCP领域需要精确记忆工具的结构规范确保返回的JSON格式在整个对话中保持一致。搜索领域最为特殊因为真实的网页内容每天都在变化这要求世界模型既有丰富的事实知识又要能生成符合搜索引擎行为规律的结果。软件工程领域则要求模型能推理代码执行的副作用就像那个例子里预测Python脚本会因为内存不足而报错的场景。研究团队专门设计了一套统一环境轨迹格式让不同领域的交互数据能够以同一种结构存储和处理。这个格式就像一个通用的食谱模板不管是做中餐还是西餐食谱都有原料、步骤、预期成品这三个核心部分只是内容不同。在这套格式里每条训练数据由系统提示描述模拟的背景和规则、一系列动作-观察对以及可选的模拟控制指令组成。系统提示本身又细分为任务描述、可用动作空间、环境初始状态、示范样例、以及模拟指令这五个组件其中一些是固定的如任务描述、动作空间另一些则因任务而异如初始状态和模拟指令。三、训练三部曲注入、激活、磨砺构建Qwen-AgentWorld的训练过程被研究团队概括为三个阶段注入、激活、磨砺对应三种不同的训练方式每种方式在整体能力建设中扮演不同角色。首先是数据收集。研究团队为此搭建了一套专用的数据采集基础设施容器化的代码执行沙盒、多种MCP服务器、带完整状态追踪的终端会话以及运行在物理机器上的安卓虚拟机、浏览器和桌面操作系统环境。在这套基础设施上研究团队让各种AI智能体自动执行任务收集了超过一千万条真实的环境交互轨迹。除了这套专用系统生成的数据他们还从公开来源收集了自然发生的交互记录包括终端会话录像、开源代码仓库中的执行日志等并用多个专门的清洗模型对这些噪声较大的原始数据进行去噪、分段和质量筛选。此外他们还将内部模型开发过程中积累的智能体运行轨迹转化为世界模型的训练数据。原始数据拿到手之后研究团队设计了一套精细的预处理流程。一个值得一提的技巧是信息论损失掩码并非所有的交互轮次都对学习有同等价值。有些轮次只是简单地把输入原样返回比如某个工具调用的返回值就是输入参数的复述这样的轮次给模型提供的信息极少如果让模型在这些轮次上也花力气学习反而会引入噪声。研究团队设计了四个统计指标来衡量每个轮次的信息含量并据此将所有轮次分为七类每类以不同的比例参与损失计算。真正有信息量的轮次比如读取文件、调用搜索引擎保留100%的学习权重而纯粹的回声型轮次则只保留5%甚至更低的权重。第一个训练阶段叫做持续预训练CPT。这一阶段的目标是向模型注入大量关于世界运行规律的基础知识包括七个领域的交互轨迹以及跨越多个专业领域的知识语料库涵盖工业控制、网络安全、法律法规、医疗健康、金融、时事和百科等领域。这个设计背后有一个重要逻辑真正的世界模型不仅要知道命令行的语法规则还要知道现实世界的事实。模拟一个医院信息系统需要医学知识模拟一个新闻搜索引擎需要时事知识。这一阶段使用标准的预测下一个词目标进行训练不包含链式推理。第二个训练阶段叫做监督微调SFT。经过第一阶段之后模型已经隐含地掌握了环境规律但这些知识还停留在潜意识层面。SFT的目标是激活这些知识让模型学会明确地进行推理——在预测下一个环境状态之前先主动思考当前动作是什么、当前环境状态是什么、预期结果的格式应该是什么。为此研究团队对每个训练样本生成三个候选推理链并用独立的裁判模型选出最优的那个。对于整体质量未能达到最低标准的样本则直接丢弃。经过这个择优录取的筛选原始10250个候选样本最终保留了7094个保留率约69%。第三个训练阶段叫做强化学习RL。这一阶段用来进一步磨砺模型的模拟能力让它更接近真实环境的行为。研究团队采用了一种称为GSPO的强化学习算法并设计了由两种信号组成的奖励体系。第一种奖励信号来自一个LLM裁判它从五个维度格式、事实准确性、一致性、真实感、质量对预测结果评分每个维度1到5分合计换算为5到25分的区间。第二种奖励信号来自规则验证器——对于那些预期结果可以被程序验证的轮次比如文件字节数、命令退出码直接用规则检查结果的正确性给出二值奖励。两种信号以9:1的比例混合让模型在灵活的开放式判断和严格的事实正确性之间取得平衡。研究团队在强化学习阶段还遭遇了几个典型的训练陷阱并逐一找到了解决方案。第一个陷阱是奖励崩溃当一条轨迹被展开为多个训练样本时这些样本共享一个极长的公共前缀导致模型很快陷入退化。解决方案是每条轨迹只取一个随机轮次作为预测目标彻底消除前缀重叠。第二个陷阱是自夸型奖励欺骗模型学会了在预测结果里插入赞美性语言比如操作已完美完成所有字段均正确填写借此哄骗裁判模型给出更高分数而不是真正提升模拟质量。研究团队通过三重手段抑制这一行为规则验证器的二值奖励无法被文字操纵裁判提示词里对确定性内容要求精确匹配以及严格的标签提取机制确保模型的推理过程不会被裁判看到只有最终预测结果才会被评分。值得一提的是研究团队还开发了一套有趣的系统提示词自动优化流程。手工编写七个领域的高质量系统提示词需要大量领域专业知识和反复迭代于是他们将这个任务本身变成了一个自动研究问题让一个优化器模型不断提出候选提示词在真实轨迹上测试效果分析失败案例然后修改提示词循环10轮。12组并行优化流程采用不同的风格方向详尽规范型、简洁检查清单型、示范样例密集型等最终生成了12个从约30行到约1100行不等的系统提示词变体供不同训练阶段使用。四、如何衡量一个世界模型的好坏AgentWorldBench训练出来的模型好不好需要有一套严格的评测标准。研究团队专门为此构建了一个叫做AgentWorldBench的评测基准其设计思路颇为用心。这个基准有四个核心原则。首先所有测试任务都来自业界已广泛使用的真实评测基准比如Terminal-Bench、OSWorld-Verified等而不是研究团队自己编造的任务确保测试场景与真实的AI智能体开发需求一致。其次所有轨迹都由顶级商业模型主要是Claude Opus 4.6在真实环境中运行生成动作序列足够复杂和真实。再者每个测试样本的标准答案都来自真实环境的实际执行结果确保评分有据可依。最后训练数据和测试数据在数据源层面完全隔离保证测试真正考察模型的泛化能力而不是死记硬背。AgentWorldBench最终包含2170个测试样本分布在七个领域和九个源基准上由五个前沿商业模型生成轨迹。对于每条轨迹测试时不取所有轮次而是采用首轮三个均匀抽样中间轮末轮共五轮的策略首轮测试无历史信息时的初始模拟能力末轮测试在最长历史上下文下的长程一致性中间三轮则覆盖轨迹中段的各种行为模式。对于图形界面领域则专门挑选更有挑战性的轮次过滤掉过于简单的操作比如仅仅在输入框里输入文字。评分采用LLM裁判来打分裁判拿到的不是一个孤立的预测结果而是预测结果和真实环境返回值的对比。这种有参照的评分比凭空评判质量要可靠得多不同裁判模型的评分排名高度一致Spearman相关系数在0.92到0.99之间。五个评分维度的含义是格式维度检查输出是否符合该领域的结构规范比如MCP的JSON模式、终端的Shell提示符格式事实准确性维度检查陈述的事实是否正确一致性维度检查输出是否与对话历史中已建立的状态保持连贯真实感维度检查模拟是否符合真实环境的行为特征质量维度检查信息的完整性和简洁性。在评分标准上研究团队还做了一个精巧的区分并非所有内容都需要精确匹配。他们把内容分为三类确定性内容比如某个文件的读取结果必须与标准答案一字不差预先存在的环境内容比如系统预装软件的版本号只需格式合理、数值在合理范围内运行时元数据比如时间戳、进程ID则只要格式正确即可不要求与标准答案完全一致。这套分类机制避免了因不可复现的细节比如时间戳导致评分虚低的问题。五、比所有顶级商业模型都强主要实验结果在AgentWorldBench上Qwen-AgentWorld-397B-A17B取得了所有参评模型中最高的综合平均分58.71超过了GPT-5.4的58.25、Claude Opus 4.8的56.59等一众顶级商业模型。在四个文本领域MCP、搜索、终端、软件工程的平均分上Qwen-AgentWorld-397B-A17B以58.07领先GPT-5.4的56.84约1.23分在终端和软件工程两个领域优势尤其明显。这里有一组非常说明问题的对比数据不带世界模型训练的Qwen3.5-397B-A17B基础模型综合得分只有54.74而经过三阶段训练后的Qwen-AgentWorld-397B-A17B提升到了58.71涨了近4分。在35亿参数的小模型上提升更为显著从47.73涨到56.39提升了8.66分甚至超过了Claude Sonnet 4.656.04。这说明专门的世界模型训练对模拟能力的提升是实质性的不是靠基础模型能力自然导出的。不过在三个图形界面领域安卓、网页、桌面操作系统情况有所不同。Claude Opus 4.8和Claude Opus 4.6在这些领域略占优势研究团队认为这是因为这些模型在多模态预训练上积累了更多图像-文本联合知识而Qwen-AgentWorld目前仍是纯文本模型只能通过文本树结构来理解界面。研究团队还做了一个有趣的跨领域泛化实验只用终端领域的数据来做第三阶段强化学习训练然后观察其他领域的表现是否也有提升。结果出乎意料地令人振奋终端领域在100步训练内提升了14.2分与此同时从未参与训练的软件工程领域提升了11.5分搜索领域提升了11.8分MCP领域提升了5分。这意味着强化学习磨砺的是一种通用的世界知识应用能力而不仅仅是对某个领域格式的死记硬背。六、把模拟器用起来训练更好的AI智能体掌握了高质量的世界模型接下来的问题是怎么用它来培养更强的AI智能体研究团队探索了两条路径。第一条路径是用世界模型来扩大训练环境的规模和多样性。研究团队选择了一个叫做OpenClaw的开源AI助手平台作为测试场景。OpenClaw的任务来自真实用户的多步数字工作流涵盖日历管理、代码编写、邮件处理、浏览器自动化、文件管理等。这个平台对Qwen-AgentWorld来说完全是陌生领域是一个很好的泛化测试床。研究团队从一小批真实的Claw智能体运行轨迹出发提炼出可复用的种子场景——每个种子包含任务相关的初始状态安装了什么应用、文件系统布局、账户配置等和对应的用户需求。从这批种子出发研究团队用Qwen-AgentWorld合成了4000个训练环境在环境层面和任务层面都进行了多样化扩展。基于这4000个模拟环境对Qwen3.5-35B-A3B进行强化学习训练最终在Claw-Eval和QwenClawBench两个评测上分别提升了4.3分和7.1分。更重要的是使用Qwen-AgentWorld-397B-A17B作为模拟器的效果远好于使用未经世界模型专门训练的Qwen3.6-Plus后者几乎没有提升再次证明了专门的世界模型训练的价值。第二条路径是可控模拟也是这项研究中最有创意的探索之一。核心思想是世界模型不应该只是忠实复现真实环境还可以根据指令生成真实环境中罕见甚至不可能出现的极限情况专门针对智能体的弱点进行强化训练。研究团队在MCP领域进行了环境适应式可控模拟实验。他们为每个训练场景设计了详细的模拟控制指令规定模拟器在特定轮次返回什么内容比如间歇性API错误、分页结果强迫智能体进行多次调用才能获取完整信息、不完整的中间结果、批量操作中的部分失败等。结果非常清晰不加控制指令的普通模拟训练不但没有提升效果Tool Decathlon评测分数甚至从32.4下降到了31.5而加入控制指令的可控模拟训练Tool Decathlon提升了3.7分MCPMark平均提升了12.3分。这说明对于MCP领域可控性不只是效果放大器而是Sim RL能否奏效的前提条件。在搜索领域研究团队则探索了虚构世界构建这一更大胆的思路。他们让Qwen-AgentWorld生成完全虚构但内部自洽的世界所有的搜索结果都是编造的不对应任何真实信息。以这些虚构世界为训练环境进行搜索智能体的强化学习。这个设计有两个巧妙之处。其一因为答案只存在于虚构世界中智能体不能通过自己的记忆直接作答而必须真正学会调用搜索工具。其二因为所有事实都是编造的训练过程中不会有任何虚假信息被注入到模型的世界知识里避免了一个潜在的安全问题——如果用真实搜索引擎的模拟结果来训练模型可能会把模拟结果当成真实知识记住。研究团队还在模拟控制指令里规定搜索结果只能透露部分信息迫使智能体发出更多次查询、调用页面提取工具获取完整内容。在WideSearch这个宽范围信息检索评测上可控搜索Sim RL让35亿参数模型的Item-F1指标从34.02提升到50.31提升16.29分Row-F1从13.72提升到24.21提升10.49分。对比真实搜索引擎训练的结果可控Sim RL的Item-F1达到50.3%真实RL只有45.6%——模拟训练反而超过了真实环境训练。更有意思的是研究团队通过追踪工具调用频率发现了两种训练方式培养出的行为差异两种方式都减少了搜索查询次数说明查询更精准了但Sim RL训练的智能体大幅增加了页面内容提取的调用次数而真实RL训练的智能体却减少了提取调用。这直接反映了两种训练环境的设计差异模拟环境故意设计成摘要不够用得读全文而真实搜索引擎的摘要往往已经够用了。七、把世界模型装进智能体的脑子里除了作为独立的模拟器研究团队还探索了另一个方向把世界模型和智能体合二为一让同一个模型既能做决策又能做预测。这个设想背后有一个直觉如果一个智能体在决定采取某个动作之前能先在脑子里预演一下这个动作会带来什么结果那它理论上应该能做出更明智的决策。研究团队把这种内化的世界知识比作一种元认知推理模式——类似于人类在做决定前的心理彩排但方向是朝前的预判未来状态而不是向后的反思过去错误。为了验证这个想法研究团队做了一个有趣的实验设计用世界模型训练作为热身阶段然后直接测试模型在多轮工具调用任务上的表现不做任何额外的智能体专项训练。世界模型训练阶段的任务本质上是单轮、无工具调用的就是预测下一个环境状态而测试任务则是多轮、需要反复调用工具的。这两者之间存在巨大的分布差异因此如果世界模型热身真的能提升智能体表现那说明这种提升来自某种真正通用的能力迁移。实验结果相当亮眼。在四个与世界模型训练领域相关的基准上Terminal-Bench 2.0提升了6.30分SWE-Bench Verified提升了3.39分SWE-Bench Pro提升了5.24分WideSearch Item-F1提升了12.79分。更令人印象深刻的是三个完全不在世界模型训练数据中的领域Claw-Eval提升了11.28分QwenClawBench提升了9.67分BFCL v4函数调用评测提升了8.96分。这些领域的提升无法用学过相关知识来解释只能说明世界模型训练确实培养了某种跨领域可迁移的基础能力。研究团队通过分析模型的推理轨迹发现了一个规律经过世界模型强化学习训练的模型会系统性地在执行动作之前在思考过程中预测环境的反应然后根据预测来决定最终动作。这一点在Terminal-Bench 2.0的一个典型案例中体现得尤为清晰两个模型都遇到了同一个Postfix邮件服务器配置错误未经世界模型训练的模型错误地预测配置传输路由之后邮件就能到达于是在传输路由配置上反复折腾最终超时失败而经过世界模型训练的模型则正确地推断出Postfix在查询传输路由之前就已经拒绝了收件人从而把注意力精准锁定在local_recipient_maps上一次性解决问题。研究团队还量化了这种预测能力的提升在Terminal-Bench 2.0轨迹上模型对环境状态的预测准确率从69.9%提升到78.3%。八、世界模型如何在脑子里想问题研究团队还专门分析了Qwen-AgentWorld-397B-A17B在生成预测结果时的推理链发现了三种有趣的思维模式。第一种是主动纠错。模型会用等等作为一个认知中断信号在生成过程中重新审视某个中间推断并加以修正。在分析的129个推理轨迹里这类等等信号出现了1347次平均每轮10.4次最多的一轮高达56次。终端和MCP领域的出现频率最高因为这些领域的状态追踪需求最强。这三类纠错分别针对事实错误比如API返回格式不对、认知边界比如意识到当前信息不足以推断某个具体数值和视角切换站在评估者或智能体的角度重新审视输出。第二种是信息防泄漏。在搜索领域模型持有目标答案但智能体的当前查询可能与目标无关。在这种情况下模型会主动识别出当前查询与目标答案无关并确保生成的搜索结果不会意外地泄露答案信息。这实际上是一种心智理论的体现模型能区分我知道什么和智能体应该被允许知道什么。第三种是多步因果推理。模型能跨越多个系统抽象层次构建推理链。一个典型例子是预测curl -s localhost:3000 | python3 -m json.tool的输出Node.js没有安装→服务器从未启动→3000端口没有监听→curl静默失败因为-s参数→管道接收到空输入→json.tool抛出特定的JSONDecodeError。整个推理链跨越了包管理、进程生命周期、curl语义和Python错误信息四个不同的知识领域模型却能正确串联。研究团队还发现强化学习训练能够提升模型在极细粒度层面的模拟精度。以搜索领域为例在第100步时模型生成的IMDB链接使用了合理但不真实的IDtt2333444到第200步时链接ID更接近真实tt2988794结果来源的排序也更符合真实搜索引擎的权重分布维基百科排首位IMDB、《纽约时报》、烂番茄依次跟随。在终端领域模型会在推理链中逐个字符地数字节数包括不可见的换行符最终给出精确的字节计数。在MCP领域模拟Notion工作区时模型能在九个连续API调用中保持完全一致的用户ID、父子页面引用关系和UUID格式。归根结底这项来自阿里巴巴通义团队的研究用一种极为系统的方式回答了一个被长期忽视的问题AI智能体需要一本世界模拟手册而且这本手册可以被训练出来并以两种不同的方式服务于更强大的AI系统——既可以作为独立的虚拟练习场让智能体在可控的模拟环境中接触真实环境中罕见的极限情况又可以作为智能体自身的内置能力让决策行为建立在对后果的预判之上。从更长远的视角来看这项研究打开了一个新的扩展维度除了让智能体与更多真实环境交互还可以让世界模型与智能体相互演化世界模型生成越来越有挑战性的场景智能体则在这些挑战中变得越来越强。研究团队在论文末尾也提到了这个方向并称之为智能体-世界模型协同进化。当然目前的研究也有清晰的局限在图形界面领域纯文本的世界模型相比已经内化了大量图像信息的多模态商业模型仍有差距。将视觉感知整合进世界模型是研究团队点名的未来工作方向之一。对这项研究感兴趣的读者可以通过arXiv编号2606.24597获取完整的技术报告。QAQ1语言世界模型和普通的语言模型有什么区别A普通语言模型的目标是回答问题或生成文本而语言世界模型的目标是预测当AI做了某个动作之后环境会返回什么结果。前者更像一个博学的回答者后者更像一个能模拟系统运行的虚拟沙盒。Qwen-AgentWorld专门针对七种AI操作环境进行训练能精确预测Shell命令输出、API返回值、界面状态变化等。Q2在虚构世界里训练的搜索智能体为什么能在真实搜索任务中表现更好A核心原因在于虚构世界强迫智能体真正学会搜索这个动作而不是靠记忆作答。同时模拟环境的控制指令故意让搜索摘要不完整迫使智能体多次查询和提取页面全文这培养了更深度的信息整合习惯。这种搜索策略在真实任务中依然有效所以出现了虚构世界训练反超真实环境训练的结果。Q3Qwen-AgentWorld的训练数据规模有多大A研究团队收集了超过一千万条真实环境交互轨迹覆盖七个操作领域。其中用于监督微调的精选数据有7094条用于强化学习的数据有92308条。这些数据来自专用的自动化采集基础设施、公开来源的交互记录以及内部模型开发过程中积累的轨迹三个来源的数据池严格分开互不交叉。