约翰斯·霍普金斯大学打造一个让智能体在游戏中持续成长的评测场

📅 2026/7/2 1:43:24
约翰斯·霍普金斯大学打造一个让智能体在游戏中持续成长的评测场
这项由约翰斯·霍普金斯大学主导的研究以预印本形式发布于2026年5月论文编号为arXiv:2606.24893感兴趣的读者可通过该编号在arXiv平台查阅完整论文。**人类是怎么学习的**回想你第一次玩一款全新的电子游戏。你不知道地图长什么样不知道哪些道具有用不知道敌人会在什么时候突然出现。于是你开始探索摔跤记住教训慢慢摸清规律最终形成一套属于自己的打法。这整个过程你的大脑在不停地学习——不是在考试前突击复习而是在实战中随时更新对世界的理解。现在把这件事交给人工智能来做。大多数AI的训练方式更像是让它提前把所有可能的题目做一遍然后在考试时凭记忆作答——考试期间它不会、也不被允许继续学习。但这和真实世界的运作方式相差甚远。现实中无论是人类还是机器都需要在做事的过程中不断更新自己的认知。正是为了研究AI能否做到这一点约翰斯·霍普金斯大学的研究团队开发了一套全新的评测框架起名叫**AgentOdyssey**——直译过来就是智能体的奥德赛暗指一段在未知世界中不断学习、不断前行的漫长旅程。**一、为什么现有的测试方法不够用**先来说说背景。近些年以GPT为代表的大语言模型展示出惊人的推理能力研究者们也开始尝试让这些模型来控制智能体——也就是能够在环境中感知、决策、行动的AI系统。这些智能体被放进各种各样的测试环境里有的模拟家居任务比如把苹果放进微波炉加热有的模拟网页浏览有的模拟机器人操作。但这些测试有一个共同的隐含假设AI在测试的时候不允许再学习新东西。它就像一个参加期末考试的学生考前学完了考试时只能靠已有的记忆答题。这种设定在实验室里容易控制但和现实世界的需求完全脱节。更麻烦的是即便有些研究考虑到了学习这件事通常也是先让AI在大量游戏局次中训练好再去测试——学习和测试依然是分开的两个阶段。而真实世界里一个被部署的AI系统必须在工作的过程中持续学习没有机会暂停、回炉重造再上岗。研究团队把这种他们真正想研究的能力叫做**测试时持续学习**——简单说就是AI在被实际使用的过程中边做事边学习而且学到的东西要能帮助它下一步做得更好。这和传统意义上的持续学习也不同传统持续学习假设有一个干净的训练-测试边界而他们要研究的是没有这条界线的情况。**二、AI要在游戏中学什么五种核心能力**为了研究测试时持续学习研究团队首先思考一个能在真实世界中持续学习的AI到底需要具备哪些能力他们从人类婴儿和幼儿的认知发展中汲取灵感——毕竟人类是迄今为止最成功的持续学习者在出生后的头几年里不需要任何老师告诉他们规则就能通过与世界的互动学会大量知识和技能。研究团队归纳出五种关键能力这五种能力彼此紧密依存缺一不可。第一种是**探索**。就像冒险者进入一片未知森林AI需要主动去寻找新地点、新物品、新角色而不是窝在已知的安全区域里反复做同样的事。只有充分探索才能积累足够的原材料供后续学习使用。第二种是**情景记忆**也就是记住我做过什么事。比如AI三百步之前把一块宝石放在了某个角落现在需要找回来——这需要的不是对规则的理解而是对自身经历的记忆。人类对此习以为常但对AI来说相当有挑战性。第三种是**世界知识习得**。AI需要通过与环境互动学到关于这个世界的具体规律——某种材料能炼成什么武器深夜里哪些区域更危险特定时间段敌人的攻击力会变强。这些知识在游戏开始时没有人告诉AI必须靠自己摸索。第四种是**技能学习**也就是学会更高效地完成某类任务。比如在纸上记下合成配方下次需要合成时直接查阅而不是每次从头摸索。这更接近于程序性记忆——知道怎么做一件事而不只是知道这件事的相关知识。第五种是**长程规划**。游戏中的主线任务往往需要分解成很多步骤有些步骤之间隔着几百个行动——比如先在某地采集材料用材料合成钥匙用钥匙打开图书馆的门然后才能去图书馆和商人交易。AI需要在整个过程中保持对目标的追踪而不是完成了一个小步骤就忘了大目标。**三、AgentOdyssey是什么样的游戏**研究团队设计AgentOdyssey的核心挑战在于如何创造一个能反复使用、不会被AI提前背答案的测试环境他们的解决方案是用AI来生成游戏本身。AgentOdyssey是一个**文字冒险游戏**的生成框架。AI不看图、不听声音所有关于世界的信息都以文字形式呈现。游戏世界由三类基本实体构成地点城堡大厅、图书馆、山洞等物品木剑、草药、铁锭等以及NPC不由玩家控制的角色包括友善的商人和敌对的怪物。这些实体之间的空间关系构成一张世界图谱就像一张地图但用数据结构来表示。游戏的规则分为两类。行动规则定义了AI主动采取某个行动会产生什么效果——比如捡起物品、攻击怪物、合成道具。步进规则则定义了世界在AI不做任何事时自己会怎么运作——比如NPC会随机在地点间巡逻夜深时会有怪物在噪音大的地方自发出现特定条件满足时商人会在地上留下写了消息的纸条。每一步AI会收到一段文字描述现在几点你在哪里周围有什么东西周围有哪些NPC你自己的状态如何血量、等级、手里拿着什么。然后AI要从一个固定的动作库里选择一个动作执行比如进入图书馆、捡起铁锭、向商人出售水晶矿石。关键在于游戏中的知识比如哪种材料合成什么道具、某个NPC在什么时间段特别危险、打败某个怪物会掉落什么物品——这些都不会提前告诉AI必须通过探索和互动来发现。而且每次生成的游戏内容都不一样所以AI不可能靠背诵来应付。研究团队用一个由大语言模型驱动的生成引擎来创建这些游戏引擎由三个子模块构成实体生成器负责创建新的地点、物品和NPC规则生成器负责生成新的行动规则和步进规则任务生成器负责生成主线任务和支线任务。整个系统以一个基础游戏为模板让AI在理解这个模板的基础上创造出结构相似但内容完全不同的新游戏。生成之后系统还会自动运行测试——用随机行动的AI去玩这个游戏检查有没有程序错误如果有就把错误反馈给生成器让它修复。这保证了生成的游戏在技术上是可运行的。与现有的文字游戏环境相比AgentOdyssey有几个独特之处游戏内容可以无限生成不受固定数据集的限制世界动态是独立于AI行动而自发运作的NPC会自己到处走时间会自己流逝游戏任务可以延伸到极长的步骤数而且由于内容是新生成的不存在被AI提前背过的可能。**四、如何衡量AI表现得好不好**评测AI的表现研究团队设计了一套多维度的指标体系而不只是看任务完成了几个。游戏进度方面主要任务完成的阶段数是核心指标辅以支线任务完成数、探索过的地区数、合成过的新物品数、击败过的不同怪物数。由于不同运行之间的绝对数值可能有差异研究团队将这些数值做了归一化处理使得不同AI之间的比较更公平。除了游戏内的直接表现研究团队还设计了四项**诊断测试**用来专门探查AI在五种核心能力上的具体水平。世界知识问答是其中最直接的一项在游戏开始前后分别对AI提一批关于游戏世界的选择题比如合成锁具需要什么材料哪个地区和农场相连通过比较前后的答题准确率可以测量AI在游戏过程中究竟学到了多少新知识。这类问题同时也能检测数据污染——如果AI在游戏开始前就能高准确率地答对关于新生成游戏世界的问题说明这些内容可能曾经出现在它的训练数据中需要过滤掉。情景记忆问答则考察AI对自身经历的记忆比如你在哪里丢下了铁剑你上一个击败的怪物叫什么名字这些问题的答案从AI自己走过的轨迹中提取没有标准答案只有基于该次游戏实际发生的事情的正确回答。物品和动作探索率测量的是AI尝试过多少种不同物品和动作——游戏中有83种物品和22种动作AI探索了几种探索率越高说明AI在这方面的能力越强。行动多样性则用一个熵值公式来计算在连续的若干步行动中AI的行为有多样化如果AI总是重复同一个动作熵值接近0如果AI的行为丰富多样熵值接近1。行动多样性的下降往往意味着AI陷入了某种死循环。此外研究团队还记录了每种方法消耗的总token数量大语言模型处理信息的基本单位可以粗略理解为思考的工作量作为衡量计算成本的指标。**五、研究团队测试了哪些类型的AI智能体**研究团队测试了六大类AI智能体每类有不同的记忆策略配合不同的基础语言模型形成了一个相当全面的对比实验。长上下文智能体是最直接的实现方式把每一步的观察、推理和行动都原原本本地追加到文本里让AI的记忆随着时间线性增长。这就像把整本日记都摆在眼前想回忆什么就翻哪里——但记得越多每次思考时需要处理的内容就越庞大。固定大小记忆智能体维持一个恒定长度的记忆窗口。最简单的实现是滑动窗口——只保留最近几步的记录旧的自动淘汰相当于只记得最近几天的事情。研究中还测试了一种叫做MEM1的变体它用语言模型来主动更新和压缩记忆而不是机械地丢弃旧记录。检索增强型智能体把所有经历存入一个外部数据库每次做决策时去数据库里检索最相关的几条记录作为参考。这就像有一个索引完善的笔记本不用记住所有细节但知道去哪里查。研究团队测试了四种变体最基础的向量检索、Mem0一个专门为AI记忆设计的系统、Raptor能对记忆做层级摘要的检索方法、以及Voyager最初用于Minecraft游戏的检索架构。参数微调智能体把经历直接写进模型参数里而不是保存在外部。这类似于通过反复练习让技能变成肌肉记忆——不需要查笔记已经成为本能。研究团队使用的是LoRA一种只更新模型参数中一小部分的高效微调方法训练数据是AI自己与游戏互动产生的观察-推理-行动三元组。强化学习智能体同样通过调整模型参数来学习但驱动力不是模仿正确答案而是获得奖励——具体采用的是PPO算法一种广泛应用于强化学习的优化方法。隐变量记忆智能体则是一条更激进的路线把经历压缩成模型内部的记忆标记存入隐藏状态而不是以文字形式显式保存。研究团队测试了MemoryLLM和MPlus两个系统它们基于LLaMA 3/3.1-8B模型构建。所有智能体都采用ReAct提示范式——在给出行动之前先输出一段推理过程模拟人类先想想再行动的习惯。基础模型方面研究团队主要使用了OpenAI的GPT-5和GPT-5-mini以及阿里云的Qwen3-4B覆盖了闭源顶级模型和开源小模型两个端点。在附录中研究团队还对比了Claude Opus 4.6、Gemini 3.1 Pro、Grok 4.1 Fast等更多前沿模型。**六、实验结果谁表现最好谁暴露了什么问题**研究团队进行了两轮实验。第一轮在一个由AI生成的较复杂游戏中运行游戏包含18个地区、83种物品类型、13种NPC类型主线任务共24个阶段每个AI运行500步。第二轮使用一个较简单的游戏14个地区、49种物品、12种NPC、17个主线阶段专门用来深入分析参数微调智能体的表现。从第一轮实验的游戏进度来看以GPT-5为基础的长上下文智能体表现最好完成了3个主线任务阶段GPT-5加上检索增强内存完成了2个仅有短期记忆的固定窗口智能体完成了1个。但即使是最好的AI也只完成了人类玩家完成的9个阶段任务中的3个差距依然非常显著。长上下文智能体的优势来自两点它储存了所有过去的经历推理时能参考全部历史信息而GPT-5本身对长上下文的处理能力也更强。当模型换成GPT-5-mini表现明显下降换成Qwen3-4B下降更为明显。在附录的额外测试中Claude Opus 4.6表现最佳完成了5个阶段但依然远不及人类的9个。但长上下文智能体有一个致命弱点计算成本随步骤数成平方增长。随着游戏进行它需要处理的文本越来越长每一步的推理代价都在增加。当研究团队尝试给它加上反思模块时由于每步额外的token消耗AI很快就撑不住了。相比之下检索增强型和固定窗口型智能体的token消耗随步骤线性增长控制成本更容易。诊断指标方面长上下文GPT-5智能体的世界知识问答准确率在游戏前后提升了34.8个百分点情景记忆问答准确率达到0.92物品探索覆盖了18/83种类动作探索覆盖了17/22种。这些数据在所有AI中是最高的说明它确实学到了更多也记住了更多——但这本质上是因为所有信息都在它的上下文里相当于开卷考试。更小的模型和记忆受限的智能体世界知识问答的提升幅度要小得多情景记忆准确率更是普遍偏低。从行动多样性的时间曲线来看长上下文智能体的多样性虽然随时间有所下降但整体维持在一个较高水平。固定窗口智能体和参数微调智能体则呈现出更陡峭的下降趋势最终行为趋向单调与此同时游戏进度也在同一时期进入平台期两者高度相关。MemoryLLM和MPlus这两种基于LLaMA 3/3.1-8B的隐变量记忆智能体几乎无法产生有效行动无效行动率高达100%完全无法在游戏中有所作为。研究团队因此无法对它们做情景记忆评测因为它们的轨迹里全是等待这一个动作。**七、短期记忆为何如此重要**第二轮实验专门聚焦参数微调智能体结果揭示了一个贯穿全文的重要发现**短期记忆对几乎所有类型的智能体都有显著帮助**在参数微调型智能体上尤为明显。在以Qwen3-4B为基础模型的测试中最基础的参数微调智能体完成了0个主线任务阶段加上反思机制后依然是0个加上摘要机制完成了1个而加上短期记忆保留最近5步的记录之后完成了7个主线阶段一跃成为该实验组中表现最强的方法甚至超过了固定窗口智能体6个阶段。为什么短期记忆如此关键研究团队给出了直觉性的解释即使游戏需要长达数百步的长程规划AI在每一步的决策中依然需要维护短期目标。以收集5根木棍为例AI必须在收集的过程中记住自己已经捡了几根还差几根。没有短期记忆AI很容易在完成一个小动作后就忘了下一步该干什么。更引人注意的是带短期记忆的参数微调智能体其表现超过了没有短期记忆的固定窗口智能体。这说明通过训练将经验写入模型参数确实是一种有效的长期记忆形式——短期记忆管近期目标参数记忆管长期知识两者互补才能表现出色。相比之下反思让AI在行动后总结经验教训和摘要让AI定期生成记忆摘要这两种机制在以推理模型为基础的设置中没有显示出帮助。研究团队认为推理型模型在生成回答时已经内置了类似反思和摘要的过程额外的显式机制反而增加了冗余和计算负担。然而参数微调智能体也暴露出一个严重问题在诊断测试中它们在游戏后的世界知识问答准确率反而低于游戏前情景记忆准确率也接近于零。研究团队认为这是灾难性遗忘——模型在学习新知识的同时把原本掌握的基础语言能力和常识给覆盖掉了就像往一块黑板上反复写新内容旧内容被擦掉了。这被研究团队视为未来工作中需要重点解决的问题。**八、AI在五种核心能力上的具体失败方式**研究团队对智能体的失败模式做了细致的归纳为每种核心能力总结出具体的失败表现。在探索方面AI普遍表现出目标导向的偏狭只去捡和当前任务直接相关的物品忽略那些暂时看起来没用但将来可能作为合成原料的东西。这种只做眼前事的策略使它们错过了许多关键的中间资源导致后续任务无法推进。对于行动空间的探索同样不足大多数AI没有尝试所有可用的动作因此对部分动作的效果完全不了解。在情景记忆方面最常见的失败是陷入重复循环AI执行一段相同的动作序列得到相同的失败反馈却依然重复同样的行为就像走进了一条死胡同却不知道转身。另一个问题是幻觉——AI声称某个物品在某个地方但实际上物品已经不在那里了或者根本就没在那里说明它的记忆并不准确而是包含了被编造出来的内容。在世界知识习得方面较小的模型尤其容易发明不存在的合成配方或者将正确的信息接收了却没有更新自己的知识体系——就像老师讲了一遍课学生坐在那里却根本没有吸收进去。在技能学习方面当一个敌对NPC有固定的攻击模式时大多数AI无法从多次交战中归纳出对策而是每次都凭直觉反应没有形成可复用的战术。更明显的是没有任何被测试的AI学会了把合成配方写在纸上供以后查阅这一在游戏中明确提供了工具支持的技能。在长程规划方面AI在完成一个子任务后经常忘了回去推进主线——比如去做了一个支线任务做完之后不知道下一步该干什么就在原地打转而不是回到主线的下一个阶段继续推进。此外研究团队还发现了成本和效率问题许多AI使用了过多的推理token成本高但实际决策质量并不匹配。研究团队指出未来的智能体需要更高效的推理机制能以更少的思考量做出更好的决策。**九、这一切意味着什么**归根结底AgentOdyssey做了一件很重要的事它把AI能否在做事的过程中持续学习这个问题变成了一个可以被严格测量的问题而不只是一个泛泛而谈的愿景。研究的结论是清醒而务实的即使是目前最强的AI模型在需要同时具备探索能力、长程记忆、世界知识习得、技能积累和任务规划的场景下表现依然与人类有相当大的差距。最好的AI完成了24个主线阶段任务中的5个Claude Opus 4.6而人类可以轻松完成9个而且人类在没有任何说明的情况下玩这个游戏探索、记忆、学习、规划的过程基本是无意识完成的。这并不意味着现有技术一无是处。长上下文模型在信息管理上有天然优势但受限于成本短期记忆是一个廉价且有效的增强手段几乎所有类型的智能体都能从中受益参数微调证明了在测试时将经验固化到权重里是可行的但灾难性遗忘是必须正视的技术障碍。这个框架本身也有它的局限。当前的AgentOdyssey只支持纯文字观察不涉及图像或声音每个游戏只有一个AI玩家无法研究多智能体协作时间是离散推进的每步固定10分钟游戏时间这和真实世界的连续时间流逝有所不同。研究团队在论文中明确指出未来可以在这些方向上扩展这个框架。对于AI领域的研究者来说这项工作提出了几个值得深入探索的方向如何让AI在学习新知识的同时不丢失旧能力如何在有限的计算预算内让AI的有效决策时间跨度更长如何让AI真正记住失败并从中改变行为而不只是重复同样的错误这些问题没有简单答案但AgentOdyssey提供了一个可以反复运行、可以无限扩展、可以精确诊断的实验场所——这本身就是这项研究最大的贡献之一。感兴趣深入了解的读者可以通过论文编号arXiv:2606.24893在arXiv平台找到完整内容代码和演示平台可通过AgentOdyssey.github.io访问。---**QA**Q1AgentOdyssey测试的是AI的什么能力AAgentOdyssey测试的是AI在游戏运行过程中边做事边学习的能力具体包括五个方面主动探索未知区域和物品、记住自己的经历情景记忆、通过互动学习世界规律世界知识习得、形成可复用的操作技能以及跨越数百步的长程任务规划。这五种能力合在一起就是研究团队所说的测试时持续学习。Q2AgentOdyssey测试发现目前最强的AI在游戏中能做到什么程度A在第一轮实验中以GPT-5为基础的长上下文智能体完成了24个主线任务阶段中的3个是所有被测AI中表现最好的。在附录的扩展测试中Claude Opus 4.6完成了5个阶段。相比之下人类玩家可以完成9个阶段。也就是说即使是最先进的AI游戏表现也只有人类的一半左右差距依然相当明显。Q3为什么给AI加上短期记忆之后效果会明显变好A短期记忆帮助AI记住最近几步的观察和行动解决了一个常见失败完成了一个小步骤后忘了下一步该干什么。比如任务是收集5根木棍没有短期记忆的AI捡了一根后就忘了还差几根有了短期记忆它能持续追踪进度。研究发现短期记忆让参数微调智能体的主线任务完成数从0提升到了7个是提升效果最显著的单一机制。