检索记住事实,参数塑造行为:真正的长期智能,始于事实与行为的解藕

📅 2026/6/30 5:53:50
检索记住事实,参数塑造行为:真正的长期智能,始于事实与行为的解藕
来源arXiv:2606.26806 · 2026年6月25日论文Memory Depth, Not Memory Access: Selective Parametric Consolidation for Long-Running Language Agents核心标签Agent Memory · Parametric Consolidation · LoRA · Long-Running · Memory Depth 为什么你现在应该读这篇如果你在做长期运行的 Agent 系统大概率同时用了 RAG检索记忆和 context window工作记忆。但你是否注意到一个现象Agent 能记住用户上周说了什么事实但记不住上次做这个任务时学到的行为模式经验这篇论文给出了一个关键区分“记忆访问”Memory Access和记忆深度Memory Depth是两种不同的能力。RAG 擅长前者——检索过去的事实但后者——经验如何持久地塑造 Agent 行为——需要把经验固化为模型参数。三件做长期 Agent 系统的人不能不知道的事① 检索能记住发生了什么但不能塑造怎么做当工作上下文被卸载context window 清空后RAG 还能检索到过去的交互记录。但 Agent 的行为模式——比如先检查文件再修改的习惯——如果只存在 context 里卸载后就丢了。这种行为记忆需要写入模型参数才能持久。② 选择性固化不是所有经验都值得写入参数EVAF 机制用惊讶度surprise和效价valence两个维度门控——只有让 Agent 感到意外且有价值的经验才触发参数写入。每 200 个事件只需 2-3 次写入效率极高。③ 记忆深度和记忆访问是互补的不是替代关系实验数据检索在浅层事实回忆上最强准确率 0.956-0.973EVAF 在目标持久性和卸载后恢复上最强0.812-0.904。长期 Agent 需要两层检索记住事实 参数固化行为。如果你正在做(1) 长期运行 Agent 系统(2) Agent 记忆架构设计(3) 经验积累和复用下面的细节可以直接搬。论文元信息来源arXiv:2606.26806 · 2026年6月25日作者Haoliang Han关键数据检索事实回忆0.956-0.973EVAF目标持久性0.812-0.904每200事件仅2-3次参数写入核心创新EVAF惊讶度效价门控的LoRA固化 Loop-Drift Protocol循环漂移测试核心场景你的 Agent 卸载上下文后忘了怎么做想象一下你的 Agent 运行了 3 天处理了 500 个事件。在第 201 个事件时Agent 学会了用户的项目用 FastAPI所以代码生成要加 async/await。这个行为模式如果只存在 context window 里当上下文被卸载后比如处理其他任务Agent 就忘了这个习惯——下次生成代码又忘了加 async。RAG 能检索到用户用 FastAPI这个事实但不能让 Agent 自动养成加 async 的行为习惯。这就是记忆访问和记忆深度的区别。EVAF 机制事件流输入 │ ▼ ┌──────────────────────────┐ │ 惊讶度门控 (Surprise) │ ← 这个事件是否出乎意料 │ 效价门控 (Valence) │ ← 这个事件是否有价值 └──────────┬───────────────┘ │ 通过│ 不通过 → 跳过大部分事件 │ 通过 ↓ ┌──────────────────────────┐ │ LoRA 参数固化 │ ← 将经验写入模型参数 │ (Selective Write) │ 每200事件仅2-3次写入 └──────────────────────────┘双维度分解EVAF 将选择性固化分解为两个可控维度维度说明控制方式选择Selection哪些经验值得固化惊讶度效价门控驱动Drive固化到什么程度内部循环写入强度模型依赖检索 vs EVAF 性能对比能力维度检索RAGEVAF参数固化浅层事实回忆0.956-0.973✅较低目标持久性较低0.812-0.904✅卸载后恢复差强✅写入效率每次交互都检索每200事件仅2-3次写入✅Loop-Drift Protocol循环漂移测试论文引入了一个受控压力测试检索索引保持完整但工作上下文被卸载要求目标条件行为必须在长循环干扰下持续存在。这个测试专门检验记忆深度——不是能不能检索到而是行为模式是否还在。So What三类人的行动清单 工程师给你的 Agent 加经验参数化层—— 不只靠 RAG 检索事实要把高频成功行为模式固化为 LoRA 参数。用惊讶度效价门控选择哪些经验值得固化用 Loop-Drift Protocol 测试你的 Agent—— 在工作上下文卸载后测试目标行为是否持续这是检验记忆深度的直接方法明天就能做统计你的 Agent 最频繁的重复行为模式如总是先检查文件再修改这些是 EVAF 参数化的优先目标 技术管理者长期 Agent 需要双层记忆架构—— 检索层RAG记住事实 参数层LoRA固化行为缺一不可参数固化效率极高—— 每 200 事件仅需 2-3 次写入不会成为性能瓶颈明天就能做评估你的 Agent 系统在上下文卸载后的行为一致性——如果行为退化说明缺少记忆深度 创业者/PM记忆深度是长期 Agent 的差异化指标—— 短期 Agent 靠 RAG 够用长期 Agent 必须有参数固化经验参数化是 Agent 自主进化的基础—— 从每次从零开始到积累经验自动进化明天就能做在产品路线图中加一个记忆架构评估项——当前是单层仅检索还是双层检索参数⚠️ 方法论局限模型规模有限主要在 GPT-2 和 TinyLlama 上评估Mistral-7B 上有控制实验但更大模型未验证陈旧记忆失效未解决论文承认固化后的参数记忆可能过时如何更新/遗忘已固化的行为是开放问题门控参数调优惊讶度和效价的阈值需要手动调优不同任务场景的最优值可能不同与检索的协同机制论文证明了互补性但两层如何协调何时用检索、何时用参数未深入讨论延伸阅读 论文https://arxiv.org/abs/2606.26806 互补阅读论文① TRUSTMEM (arXiv:2606.25161) —— TRUSTMEM 解决记忆更新的可信度本文解决记忆深度参数固化 互补阅读论文⑤ Skill-to-LoRA (arXiv:2606.16769) —— S2L 把技能文本固化为参数EVAF 把经验固化为参数思路一致 实践参考OpenClaw 的 MEMORY.md事实层/检索 SOUL.md 内化到行为行为层/参数对应这个双层架构⏱️如果只有 5 分钟看检索 vs EVAF 性能对比表就够了。核心 takeaway 是检索记住事实参数塑造行为——长期 Agent 需要双层记忆。路易乔布斯 © 2026 · AI论文观察 · Agent MemoryarXiv:2606.26806 · 2026.06.28基于公开论文研读