千问团队提出面向 agent 的语言世界模型

📅 2026/6/26 3:39:02
千问团队提出面向 agent 的语言世界模型
一句话介绍教 AI “理解世界怎么运转”比直接教它 “怎么行动” 更能提升行动力。千问团队训练了覆盖七个领域的语言世界模型既能作为独立模拟器给 Agent 提供可控训练环境又能作为 Agent 预热阶段直接提升多轮任务表现论文标题Qwen-AgentWorld: Language World Models for General Agents论文地址https://arxiv.org/abs/2606.24597官方技术博客https://qwen.ai/blog?idqwen-agentworld开源仓库https://github.com/QwenLM/Qwen-AgentWorld模型权重huggingface、modelscope一、动机Agent 执行任务需要两个核心能力策略看到状态 → 选择动作和世界模型给定状态与动作 → 预测环境的下一状态。而当前训练 Agent 的研究几乎全压在策略侧 —— 教模型调工具、写代码、操作浏览器世界模型方向一直是空白已有研究者从理论上严格证明了任何能在足够多任务上泛化的 Agent其内部必然隐含学到了一个世界模型。可见其不是锦上添花而是通用 Agent 的必要条件。既然不可避免不如显式把它训出来要想训练好一个 agent 模型理论上得让它从真实环境中成长起来但这带来两个结构性挑战规模受限跑终端任务得开容器跑 OS 任务得启虚拟机几千个环境并行的基础设施成本极高不可控真实环境遇到什么场景存在随机性没法针对 Agent 弱点定制训练内容传统的解决思路是用搭建模拟环境写终端沙箱、搭搜索后端等。但问题是不同团队面临的真实场景千奇百怪模拟出来的环境也无法复用每次都得从头手动搭建。Qwen-AgentWorld 的思路完全不同它期望训一个模型来代替任何手工模拟器这个模型不会实际执行代码但对相关的状态转换规律了然于心只需要以文本形式提供输入与环境描述就能给出合理逼真的反馈信息二、模型构建2.1 数据格式与 Cosmos、Genie那些做视频预测 “世界模型” 模型不同Qwen-AgentWorld 主要关注各类文本和 GUI 形式的环境状态。比如敲一条终端命令后会发生什么手机上点击一个按钮后界面怎么变更准确地说Qwen-AgentWorld 是一种语言世界模型LWMGUI 领域用可访问性树表示界面状态不需要处理图像Qwen-AgentWorld 主要覆盖了七个 Agent 环境领域所有领域共享统一的环境轨迹格式system_prompt [(action, observation)] 序列。其中 system_prompt 需要包含任务描述、动作空间、初始状态、示范和仿真指令以下是一个终端环境系统提示案例如上图所示准确描述一个环境并不是一项简单的任务需要大量的领域知识并且可能会迭代多次。作者也并非全靠手写而是把它视作自动化研究任务利用 AutoResearch 自动迭代目标是最大化真实轨迹上的预测准确率这种设计使得一个模型可以同时理解从终端命令到手机界面的所有交互。下面是两个代表性的交互示例预测 Python 脚本的报错堆栈以及预测安卓应用点击后的界面变化2.2 数据采集为了让模型掌握各类系统的交互规律自然需要准备大量数据样本。为此除了收集公开数据和业务积累数据以外团队还专门搭建了一整套 Agent 基础设施代码类的容器化沙箱、MCP 服务器集群、持久终端会话GUI 类的安卓虚拟机、浏览器环境和桌面 OS用于自动合成任务、让 Agent 执行、持续采集交互数据。最终得到超过 1000 万条交互轨迹用于构建 CPT、SFT、RL 训练数据把一次性的工程投入转化成可复用的模型资产环境搭一遍、数据采一次知识就固化进模型里数据清洗方面主要剔除回合数少于 2 的序列、声明了不存在工具的 MCP 和 SWE 轨迹、因环境故障而影响后续状态的 GUI 轨迹等此外还对过程中存在重复的样本做了简化比如跳过陷入的「异常输出-执行失败-错误」循环、GUI 操作前后环境无变化的样本大概率是网络延迟或系统卡死引起2.3 三阶段训练CPT持续预训练把环境状态转换规律注入模型。除了交互轨迹还混入法律、医疗、金融、网络安全等专业语料因为高保真模拟常涉及专业场景比如合规检测返回法律术语、搜索引擎返回医学答案SFT监督微调把 “预测下一个状态” 激活为显式推理模式让模型在思维链里主动分析当前状态与预期输出RL强化学习用混合奖励打磨质量。包含五个维度评分的 LLM 裁判和做二元对错判断规则验证器。后者是为了避免奖励作弊 —— 模型偷偷在预测输出里塞 “操作成功所有字段正确填充” 之类的自夸话术很可能从 LLM 裁判处骗取高分三、评估基准作者还同步发布了 AgentWorldBench 评测基准覆盖全部七个领域、2170 个样本从格式、事实性、一致性、真实性和质量五个维度评分当前主流闭源模型与 Qwen-AgentWorld 在此基准上的测试结果如下Qwen-AgentWorld-397B 总分 58.7 位列第一超过 GPT-5.458.3和所有 Claude 模型四、世界模型怎么用4.1 作为独立模拟器可以利用世界模型给 Agent 策略模型批量制造训练场景Agent 在里面反复练习。这一用法主要有两个亮点泛化到未知环境用 Qwen-AgentWorld 模拟了 4000 个 OpenClaw 场景来训练 Agent。注意 OpenClaw 完全不在世界模型的训练数据里但训练后 Agent 在真实评测上依然提升明显可控性超越真实环境在搜索领域用世界模型构建 1000 个完全虚构的平行世界 —— 每个世界有自己的虚构事实、虚构数据库、虚构搜索结果。然后在这些纯虚构世界里训练搜索 Agent结果令人惊讶在 WideSearch 真实搜索评测上虚构世界训练的 Agent 得分 50.3%而用真实搜索引擎训练的只有 45.6%原因在于可控性。虚构世界的搜索结果被刻意设计成 “只给线索不给完整答案”逼 Agent 反复搜索、交叉验证、一步步拼出答案。真实搜索引擎经常在摘要里直接给出答案Agent 发现不用深挖就能得分反而养成偷懒习惯。下图直观展示了两种训练方式在行为上的差异Sim RL 训练的 Agent 会更频繁地调用web_extractor提取完整页面内容而 Real RL 训练的 Agent 发现摘要就够用反而减少了深度搜索这意味着我们完全可以利用世界模型创造出比真实环境还有价值的反馈信号4.2 融入 Agent 本身还可以让同一个模型既当 Agent 又当世界模型。具体做法是用单轮的 “预测下一个环境状态” 任务给 Agent 做 RL 预热把 “先预演再行动” 内化成 Agent 的能力关键发现预热任务只是单轮状态预测没有工具调用也不涉及多轮交互但预热后 Agent 在七个多轮、需要工具调用的评测上全部提升其中有三个是完全没见过的域外数据分析 Agent 的思维轨迹发现训练后 Agent 在行动前会主动预测环境反馈而预测准确率达到了 78.3%跨领域的实验进一步揭示了底层机制。在训练世界模型时如果只用终端领域的数据做 RL终端模拟质量提升 14 分不意外但没参与训练的搜索领域模拟也涨了近 12 分、软件工程涨 11.5 分这说明世界模型学到的不是终端的输出格式而是通用的环境响应知识 —— 这正是 Agent 预热后能跨域迁移的根本原因