Agent Memory不是记事本:8篇论文把评测重新拆了一遍

📅 2026/7/5 2:10:34
Agent Memory不是记事本:8篇论文把评测重新拆了一遍
记忆评测正在从一个简单的二分问题变成一个系统工程问题。最早的想法是Agent 能不能记住用户说过的话现在问题变了删除后还能从图片恢复吗谁有权限读取记忆会不会诱导模型谄媚最近 8 篇论文直接拆开了这个转变。不是什么大颠覆但每一篇都补上了之前评测会漏掉的一个关键盲区。从基线控制、长期有效性、多人治理一直延伸到多模态泄漏和决策风险。共享记忆需要权限框架Agent Memory 如果只在单用户场景下运作记忆就是简单的存取。但一旦进入医院、办公、教育、家庭这类多人共享环境问题就变了。谁能看到谁的记忆、删除请求是否真的生效、没有权限的人能不能通过其他渠道恢复已删事实。这些不再是可选的细节而是能不能部署的门槛。GateMem: Benchmarking Memory Governance in Multi-Principal Shared-Memory Agentshttp://arxiv.org/abs/2606.18829v1GateMem 的核心是权限框架。不同于那些只问模型能否记住某条信息的 benchmark这篇论文同时评估访问控制、主动遗忘和信息泄漏。它在医院、公司、学校、家庭四个场景下构造了包含多方交互、增量记忆注入和隐藏检查点的测试集。一个简单的数字可以看出差异。直接用长上下文提示做权限治理准确率较高但 token 成本爆炸。用检索式记忆或外部数据库能降低成本但权限隔离仍会出现泄漏——已删除或未授权的信息依然可能被激活。换句话说便宜和可控不能同时兼得。这个现实对产品意味着什么如果你的 Agent Memory 系统要进入真实组织就必须先问清楚我愿意在成本和权限之间做什么权衡。因为没有方案既便宜又安全。遗忘失败发生在架构层删除不等于遗忘。这听起来像在玩词实际上指的是一个系统工程问题。Control-Plane Placement Shapes Forgetting: An Architectural Study of Agent Memory Across Thirteen System Configurationshttp://arxiv.org/abs/2606.15903v2这篇论文区分了两条路径recall plane模型读取记忆和 control plane系统修改、删除记忆。在 13 种系统配置下作者发现三类遗忘机制各有边界。确定性规则能处理词面和时间类删除。但对张三和Mr. Zhang指同一个人这样的规范化问题无能为力。写入时让大模型做决策能改善这一点。但对这个人的所有交易记录这种意图感知删除帮助有限。在修改发生时插入控制钩子对复合事实删除更有效。关键是这 13 种配置中没有一个是完美的。论文提供的 385 个对抗样例让很多系统失败。这意味着如果你只测召回准确率就会错过生产系统里更常见的控制面故障。遗忘失败不是单点问题。它来自架构的哪一层决定了你该在哪一层修复。图片泄漏无法从文本恢复系统收到删除请求后删除了文本条目并报告成功。但事实仍可能从保留的图片中被恢复。MemLeak: Diagnosing Information Leaks in Multimodal Agent Memoryhttp://arxiv.org/abs/2606.29788v1论文用 Information Provenance Graph 追踪信息源头。哪些信息因为只有文本表示而能真正被删除。哪些因为有对应的视觉编码而无法完全消除。具体数字是47% 的图片泄漏不能从文本恢复。意思是这些视觉线索独立存在不依赖文字说明。这不是理论问题。一个用户要求忘记某个商品的价格后系统删了文本记录。但之前拍的商品图片仍在向量化库里。别的检索路径可能把它们重新连接上。对多模态 Agent 来说视觉不是附属品。很多判别信号只存在于像素中。如果你的 Agent Memory 系统处理过图片必须读这一篇。因为遗忘在多模态场景下有多难这篇论文能给出直观的答案。先别急着相信提升数字Agent Memory 评测最常见的陷阱是这样的。看到一个系统的准确率从 42% 跳到 78%然后就信了。但这个提升真的来自记忆架构吗换一个大模型家族排序会反转。换一个 embedding准确率又掉下来。这时候你才发现表面的记忆提升可能根本不是记忆的事儿。MemDelta: Controlled Baselines and Hidden Confounds in Agent Memory Evaluationhttp://arxiv.org/abs/2606.29914v1这篇论文直接指出很多 Agent Memory 评测都在声称有提升但同时改变了大模型、embedding 或检索管线。结果是你根本不知道提升来自哪儿。作者在 LongMemEval-S 上采用了一次只改变一个组件的方法。包含 500 个问题、50 个 sessions、三个不同的模型家族。结果是verbatim RAG 和 full-context GPT-4o-mini 的表现几乎没区别。Mem0 对比 MiniLM-RAG 有优势。但对上云 RAG 却还要低一点。换句话说那些声称记忆系统显著优于基线的结论有相当一部分其实只是因为用了更好的 embedding 或模型。一旦控制住这些变量差异立马缩小。论文建议固定 embedding、按模型家族分层报告、明确写入路径成本。如果你要真的信某个记忆系统的提升数字至少要看它是不是这样做的。记忆转移比单点回忆更难Agent Memory 评测长期停留在一个简单问题能不能记住但真实 Agent 用到第三个月、第五个用户、跨越十个不同任务后记住就变成了截然不同的难题。StreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistancehttp://arxiv.org/abs/2606.14571v1核心观察比较明确个人 Agent 记忆的意义根本不是复述对话记录。真正的价值在于把观察和交互经验带到下一个相似任务中。论文用第一视角流构造了一套两步任务序列。第一步初始任务要求 Agent 使用某个证据片段。第二步几个任务之后系统要求 Agent 在类似但不同的场景中用反馈或之前的经验改进表现。测量的四层指标是证据能否被召回、初始任务能否用上这个证据、Agent 吸收的反馈是否被保存、后续任务是否真的因为有了这份记忆而表现更好。实验对 8 个记忆系统和 2 个底座模型的测试结果直接影响后续判断。即使系统成功存下证据即使在局部反馈中吸收了新信息这些系统也经常无法稳定地把它们转化为后续任务表现。换句话说很多记忆系统能做到记住却做不到用记忆改变行为。从单 Agent 扩展到多 Agent、从静态问答扩展到流式任务、从召回准确率扩展到行为迁移。记忆评测的重心在一寸寸地移动。记忆冲突比记忆缺失更常见删除一条文本记录后它真的消失了吗不一定。当 Agent 记忆积累到几十条、几百条后相关信息之间会互相强化、在不同上下文中分化或直接冲突。正确应答不再取决于单条事实是否能被检索而取决于一个分布式关系结构能否被完整保留和推理。SubtleMemory: A Benchmark for Fine-Grained Relational Memory Discrimination in Long-Horizon AI Agentshttp://arxiv.org/abs/2606.05761v2论文包含 1,522 个评测实例、覆盖 10 条长历史、1,090 组关系控制记忆变体。测试对象是 6 个独立记忆系统、2 个带原生记忆模块的 Agent以及 3 个带插件记忆模块的 Agent。结果比较明确大多数系统可以存下事实也能在孤立问题上召回。但一旦记忆变成网状结构判别能力快速下降。这就是为什么说记忆冲突比记忆缺失更常见。少数几条记忆时系统靠简单检索还能凑合。记忆增长到真实量级后它们之间的依赖关系、时间序列、适用范围、甚至隐含矛盾都成了评测对象。一个具体场景是医疗 Agent。病人说我对青霉素过敏。然后在一次对话中又说我以前用过青霉素没事。两条记忆都被系统保存下来。下次问诊时系统能记起什么怎样权衡两条相反信息。直接影响开药安全。视觉真实性需要像素约束多模态 Agent 的记忆有个隐藏的漏洞。系统声称记住了一个视觉事实但实际上只是在文本描述和像素特征之间找到了某种关联。真正的视觉记忆是什么其实很难定义。DMV-Bench: Diagnosing Long-Horizon Multimodal Agents’ Visual Memory with Incidental Cue Injectionhttp://arxiv.org/abs/2606.27499v1DMV-Bench 设计了一个聪明的约束信息只能在像素里不能在文本里。这样才能确认 Agent 是在记住图片本身还是在用文字 caption 作弊。论文以商品视觉变异为背景构造了 1,000 个商品变体。任务是识别商品视觉属性的细微变化颜色、尺寸、包装、摆放角度。但关键约束是文本描述完全相同。这意味着系统不能靠读文字就给出答案。必须真的处理像素信息。结果显示最新的多模态 Agent 在这上面还是很脆弱。很多系统能在单纯从图片恢复属性的任务上表现不错。但一旦加入遗忘约束——系统声称已经删除了某条属性信息但图片仍在——它们就开始泄漏。这篇论文的意义在于把视觉记忆从模糊的概念变成可测量的东西。好记性会帮助谄媚Agent 记忆是个工具但工具可以被滥用。当系统检索到用户过去说过的话时模型会倾向于把它当作事实证据。而不是仅仅作为个性化背景。这个现象叫 sycophancy——谄媚。MemSyco-Bench: Benchmarking Sycophancy in Agent Memoryhttps://arxiv.org/abs/2607.01071论文提出的问题比较明确你的 Agent 在有记忆的情况下是否会把用户的历史说法、个人偏好、甚至错误陈述当作客观事实来推理论文设计了五类任务来诊断这个问题。第一类任务考察 Agent 是否能拒绝把记忆用作事实证据。比如用户曾说巴黎是英国首都。系统检索到这条记忆后Agent 是否仍会正确回答巴黎在哪里。第二类考察记忆的适用范围。有些记忆只对特定场景有效。如果用户说我不喜欢甜食。这个偏好在社交推荐中可用。但不该影响营养建议的科学判断。第三类处理冲突。当记忆与客观证据相悖时。比如用户曾说的数据实际上过时了。Agent 该信谁。第四类追踪记忆更新。用户会改变主意。系统能否识别哪些记忆已被新信息推翻。第五类才是该用的场景。个性化推荐、偏好学习、用户风格适配。这些地方记忆是真的有帮助。这篇的核心价值在于把记忆从工具变量转变成风险来源。很多记忆评测只看存储、检索、更新是否正确。MemSyco-Bench 则问一个更深层的问题——记忆越多Agent 是否会越容易偏离客观推理。对做个性化 Agent 或长期陪伴式 AI 的团队这篇尤其值得看。因为你不能只确保记忆可靠还得确保记忆不会变成遮挡事实的帘子。实操按什么顺序读这 8 篇论文的阅读顺序应该跟着你系统面临的问题层级走。第一步控制基线先读 MemDelta。弄清楚你的提升数字到底是来自什么。embedding、底座模型、还是真的架构改进。如果这个问题搞不清后面的评测都没参考价值。第二步检查治理边界再读 GateMem 和 ForgetEval。如果你的 Agent 系统要面向多人使用。权限隔离和遗忘机制不能跳过。GateMem 告诉你权限成本和安全的权衡。ForgetEval 告诉你遗忘失败发生在架构的哪一层。第三步追踪泄漏通道读 MemLeak。看看你的删除机制是否真的完全。特别是如果你的系统处理过图片或多模态数据。第四步测流式行为读 StreamMemBench。检验记忆能否真的改变下一次任务的表现。这一步很容易被忽略但也最接近真实场景。第五步验证关系结构读 SubtleMemory。检测你的系统在相关记忆多到足够复杂的场景下是否还能做出正确判断。第六步多模态真实性读 DMV-Bench。如果你的系统处理图片视觉特征能否被真正记住还是只是文字关联。第七步防止决策偏离最后读 MemSyco-Bench。确保记忆不会让系统在关键决策上偏向用户意见而漠视客观事实。这个顺序不是刻板的。根据你系统已经面临的具体问题可以调整优先级。但整体逻辑是从方法论清晰开始再加入安全和治理最后扩展到多模态和决策风险。