左脚踩右脚:让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图 📅 2026/7/2 21:31:06 左脚踩右脚让 LLM 自进化的 Agent 轨迹训练法——为什么它能补上主流范式的最后一块拼图复杂多轮任务中单靠提示词的 Agent 又慢又贵传统微调又缺高质量过程数据。本文提出一种“左脚踩右脚”式自进化训练闭环让 Agent 跑任务产生完整轨迹再用这些轨迹反向训练基座模型使其内化工具使用、长程规划和上下文自主压缩能力。文中还会将这一方法与当前主流的“预训练SFTRLHF”范式做系统对比看完你会明白为什么说它正是大模型走向“行动大师”所缺失的那一环。1. 问题的原点为什么我们需要“会自己进化”的模型单轮 LLM 已经很强但面对需要多步推理、外部工具、长上下文处理的复杂任务时短板暴露无遗没有环境反馈容易一条路走到黑产生幻觉不会主动调用计算器、搜索引擎、数据库等外部工具上下文窗口一长要么超限要么迷失在无关信息中。于是大家把 LLM 包成AgentReAct / Plan-Act / Reflexion 模式让模型边思考边行动边观察边调整。实际效果确实上去了可问题也来了——推理成本翻倍延迟高而且每次都要重新提示知识无法沉淀到模型参数里。那有没有可能让模型通过 Agent 的行为“反哺”自身越用越聪明最后甚至把多轮能力压缩进单轮这正是本文要探讨的自进化训练法用 Agent 生成的过程轨迹来训练模型使模型不仅学会“怎么做”还学会“什么时候做什么”甚至学会“主动压缩上下文”。整个过程就像左脚踩右脚一步一步把自己举起来。2. 核心思想一个“左脚踩右脚”的闭环整个闭环可以用一张图概括当前模型 MtAgent 执行任务集全链路轨迹记录思考/工具/压缩/结果质量评估与过滤自动裁判人工抽检构造训练数据轨迹片段压缩样本训练新一代模型 Mt1SFT/自蒸馏/RL更新任务集/工具库步骤拆开来看用当前模型 (M_t) 构建 Agent执行一批需要多步交互的任务记录全链路轨迹不仅记录最终答案更记录每步的“思考 → 行动 → 观察”以及任何上下文压缩操作评估轨迹质量滤掉错误、低效的轨迹保留成功片段或高信息量片段用这些轨迹训练下一代模型 (M_{t1})目标涵盖行为克隆、自蒸馏、强化学习、压缩能力等用更强的新模型再次跑任务重复以上过程。我把这戏称为“左脚踩右脚”Agent 产生训练数据 → 训练出的模型变成更强的 Agent → 再产生更优质的数据……理论上只要循环设计得当模型的能力会持续攀升。而且这并非空想。近两年已有大量工作验证了其中关键组件AgentBank证明轨迹微调可显著提升 Agent 通用能力SDFT/SDPO/SEAL等表明自蒸馏与自合成数据可实现持续学习DARC/SPELL用出题者-解题者-验证者三方博弈稳定进化SAC/LCLMs/RAM则展示了可训练的上下文压缩。现在我们把这些组件拼成一个可工程化的完整方案。3. 三大训练目标规划、工具、压缩一个都不能少我们的训练数据来自 Agent 轨迹但光“模仿”轨迹是不够的。我设计了一个多目标联合训练框架一次性内化三种关键能力。3.1 轨迹行为克隆Trajectory SFT最基础的目标让模型学会“在特定任务和观察历史下该输出什么思考和动作”。输入任务描述 历史观察含工具返回、压缩摘要输出下一步的 Thought Action工具调用、回复用户、或触发压缩数据来源成功轨迹或局部高质量片段这一步能迅速把常用的工具组合、规划套路写进模型权重让模型在后面迭代中“一上来就有个不错的底子”。3.2 自蒸馏式持续学习SDFT 风格直接用自己生成的轨迹做 SFT 容易“越学越歪”——错误被不断强化。我们需要一种机制既能吸收新技能又尽量不遗忘原有能力。做法参考SDFT在上下文中附加少量专家/成功演示让模型生成“教师分布”再去掉演示让模型通过 KL 散度或重采样拟合该分布。这样模型可以在没有外部标注的情况下安全地扩展能力边界。特别适合在不破坏原有对话能力的前提下注入工具使用和压缩技巧。3.3 轨迹级强化学习过程奖励长链任务只给“最终成功/失败”的二值奖励模型很难搞清楚中间哪一步做对了。我们必须“把奖励打散”让每一步都能收到学习信号。密集奖励设计子任务是否完成、工具调用是否成功压缩后关键信息是否丢失用下游任务分数衡量效率指标Token 数、步数、耗时。富反馈注入如果环境返回报错、异常日志就把它们作为“自省教师”通过自蒸馏转化为 token 级监督信号参考 SDPO。实现上考虑到成本可以先从ReST / Rejection Sampling 行为克隆起步采样多条轨迹只保留高分者进行训练效果好再升级到 PPO / GRPO 等在线 RL 算法。3.4 上下文自主压缩从“被动截断”到“主动压缩”这是本文的另一个重点。现有 Agent 面对长上下文大多是“截断/滑窗”非常粗暴。我们希望模型自己学会什么时候压缩、怎么压缩。两条路线可以并行把压缩当成一种动作在轨迹中定义特殊的compress_context动作模型可以决定何时压缩、压缩哪些部分、压缩成什么形式摘要、结构化记录、KV 缓存聚合。训练时根据压缩后任务性能是否下降来给予奖励。引入可训练的压缩模块例如 SACSemantic-Anchor Compression或 LCLMsLatent Context Language Models与 LLM 联合微调让模型学会“调用压缩器”并利用压缩结果。举个具体例子Agent 在文献调研任务中打开第三篇论文后上下文快超限了模型可以主动输出一个压缩指令把前两篇的核心论点压缩成 200 字摘要释放空间。4. 数据过滤与验证如何防止“自产自销”的数据毒死模型自进化的最大风险是错误固化。如果不过滤模型很快会把自己的坏习惯学得滚瓜烂熟。因此必须构建一套可靠的“验证者分层体系”。层级方法说明L0规则校验程序执行结果、格式检查、约束合法性完全客观无成本L1参考答案对齐与标准答案做语义相似度 / BERTScore适合有标准答案的任务L2过程质量模型用 TRACE 等框架评估轨迹的推理质量、证据覆盖度可微调小模型作为裁判L3人类抽检随机抽取难例、边界例、失败例人工标注校准自动裁判并持续提供高质量种子过滤策略上不必“整条轨迹”都要完美。很多时候轨迹整体失败但中间的某个子片段非常漂亮完全可以拿来当作正样本。保留“难但成功”和“局部成功”的样本比只留简单全对更有价值。此外每迭代几次就要引入一部分全新任务或工具防止模型只会在固定几个模式里打转。5. 让进化持续出题者—解题者—验证者的非对称博弈只靠同一个模型自己出题自己做很快就会“内卷”到某个局部最优。参考DARC与SPELL我们要引入角色分工出题者基于现有任务生成新题目/变体并校准难度确保题目“正好在当前模型能力边界上”。可以用规则 弱模型预过滤防止生成无解或歧义题目。解题者就是待训练的 Agent 模型。验证者可以是一个固定版本的裁判模型、程序执行器、或规则系统对解题者的轨迹给出分数。关键是要与解题者非对称——验证者的更新频率远低于解题者或者干脆不更新以免两者“共谋”。生成新任务产生轨迹评分 反馈高质量轨迹数据更新模型出题者解题者 Agent验证者训练模块通过这个三方博弈每次迭代都会有新的可学习信息注入从而缓解收益递减和分布坍塌的问题。6. 与主流训练范式的对比我们缺的那块拼图讲完方案必须回答一个关键问题当前大模型的主流训练方法已经很强了为什么还需要这套“Agent 自进化训练”6.1 主流训练范式静态数据的胜利目前所有基础模型GPT-4、Claude、Gemini、LLaMA 等的训练本质上遵循一个三阶段流水线数据核心静态文本预训练海量文本有监督微调 SFT高质量指令数据人类反馈强化学习 RLHF偏好对齐网页/书籍/代码问答/对话成对偏好标注预训练学习语言模式与世界知识奠定模型的“智商”与“知识库”SFT学习遵循指令赋予模型“情商”与对话能力RLHF对齐人类偏好让回答更安全、有用、诚实。这三个阶段有一个共同特征它们使用的全部是静态数据——文本、问答对、偏好评分。即使有代码数据也只是学习代码的语法和静态逻辑并不涉及程序在真实环境中的执行过程、报错反馈、中间状态。那为什么 GPT-4 等模型依然展现出了惊人的 Agent 能力答案在于足够大的模型在预训练阶段已经“隐式”地学到了很多关于规划和过程的模式再配合推理时的提示工程如 CoT、ReAct System Prompt和外部工具集成就能在运行时表现出 Agent 行为。但这是“催”出来的能力不是“长”在模型参数里的本能。6.2 主流方法的天花板静态数据学不到“交互中的智慧”当任务需要真实环境交互、多步试错、工具链协作、主动上下文管理时主流范式开始力不从心静态文本里很少有“我调用搜索引擎失败于是修改查询词重试”这样的过程记录更没有“文档太长我先把前两部分总结压缩然后继续读第三部分”的操作日志RLHF 的偏好数据只评价最终回答不知道中间推理路径是否合理高效。结果就是主流方法训出的模型是“语言大师”但不一定是“行动大师”。它在需要主动规划、灵活使用工具、自主压缩记忆的场景中往往需要外部系统LangChain、AutoGen 等在推理时做大量脚手架工作而模型本体并不真正“理解”这些行为模式。6.3 本文方法把“交互过程”注入模型参数“左脚踩右脚”的 Agent 自进化训练正是为了填补这个缺口。它把主流训练中缺失的“动态交互过程”作为第一公民直接写进模型权重。用一个比喻主流训练 让模型读遍天下棋谱静态文本再请高手点拨几步SFT/RLHF下棋时靠临场思考推理时提示工程来应对本文方法 让模型自己下场下棋记录每一步的思考、行动、棋盘反馈再从这些“实战棋谱”中学习把“怎么思考、什么时候弃子、如何读秒压缩时间”变成肌肉记忆。6.4 核心差异一览维度主流训练范式本文的 Agent 自进化训练核心目标通用知识获取、语言生成与对齐复杂任务求解、工具使用、自主规划与上下文压缩训练数据海量静态文本、指令数据、偏好对动态交互轨迹思考/行动/观察/压缩 过程反馈执行结果、奖励信号训练阶段预训练 → SFT → RLHF通常在后训练阶段融入并可形成持续学习闭环主要技术Next-token prediction, RLHF (PPO/DPO)轨迹行为克隆、过程奖励模型 (PRM)、自蒸馏、自我博弈能力侧重广度知识覆盖、语言流畅、遵循指令深度任务完成质量、推理效率、工具调用鲁棒性数据依赖海量静态数据集 人工标注高质量 Agent 运行环境工具、模拟器、验证者 计算资源模型角色“语言大师”“行动大师”6.5 关系不是替代而是互补与升级将两者想象成一座冰山冰山一角Agent 自进化训练本文方案冰山水下部分主流训练范式预训练 SFT RLHF 核心价值深化推理、工具使用、自主压缩 核心价值构建知识基础与通用能力 关系建立在主流训练之上实现能力的深化与飞跃主流方法是地基没有预训练获得的世界知识和语言能力Agent 根本无法进行有效规划和工具使用。本文方案是在这个坚实的地基上建造的“塔楼”。本文方案是飞跃它聚焦于主流方法难以覆盖的动态、多步、交互式智能是把模型从“会说”升级到“会做”的关键技术。未来趋势是融合已有迹象表明下一代训练范式会在预训练阶段就加入过程性数据如代码执行轨迹、科学实验日志在后训练阶段系统性地使用 Agent 轨迹。本文的思路很可能就是未来训练范式的雏形。7. 从 0 到 1MVP 路线图以上是理想形态。实际落地时建议分三步走第 0 期1~2 周基础建设搭建 Agent 框架ReAct Function Calling可选用 LangChain / AutoGen 等统一轨迹记录格式JSON / Parquet字段至少包括task,steps[thought, action, observation, compression_event],outcome,metrics先不训练只跑 100~200 条典型任务轨迹用于后续分析与标注。第 1 期4~6 周首个“增强模型”人工 自动裁判对第 0 期轨迹打标签筛选高质量轨迹 局部成功片段构建第一版训练集训练目标轨迹 SFT 为主可选少量 ReST 式 RL尝试让模型输出简单的压缩指令如“SUMMARY_LAST_N5”作为动作加入训练对比原模型相同任务下的成功率、平均步数、Token 消耗。第 2 期8~12 周自蒸馏 压缩强化 闭环实现 SDFT 风格自蒸馏在新任务学习时保留旧能力引入可训练压缩模块或强化压缩动作用“压缩后下游性能”作为奖励训练轻量过程奖励模型实现自动化评分与过滤运行第一轮闭环用增强模型再跑任务→采新轨迹→再训练。严密监控关键指标。第 3 期持续自博弈与全自动进化加入出题者角色自动扩展任务与工具覆盖实现解题者-验证者-出题者三方自博弈定期加入“新鲜血液”新领域数据、新工具防止域内收敛建立完整评估体系过程质量、结果正确率、效率指标三驾马车。8. 风险与应对简表风险表现应对错误固化模型越来越自信地犯错多层次验证者保留人类演示SDFT 风格自蒸馏分布坍塌模型只会在几种任务上变强其他能力退化出题者扩展任务多目标联合训练保留部分老数据做正则奖励稀疏长链任务学不动过程奖励富反馈注入训练过程奖励模型压缩损信息压缩后任务质量反而下降用“压缩后任务性能”作奖励可逆压缩技术SAC/LCLMs评估自说自话自己评自己分数虚高外部裁判程序执行校验定期人工校准成本爆炸多次迭代训练耗费巨大LoRA 高效微调轨迹采样与片段复用控制单次数据规模9. 结语自进化不是“永动机”而是工程可控的正反馈本文所提的“左脚踩右脚”训练法本质上是一个工程化正反馈系统利用 Agent 的过程数据来强化模型再用更强的模型去产生更好的数据。它并非完全脱离外部信号的“永动机”而是把人工标注压力转移到了验证者设计和数据过滤上。与当前主流训练范式相比它回答了一个被长期忽略的问题如何让模型在真实交互中成长而不仅仅在静态文本里读书主流方法给了模型知识和语言本文方法给了模型行动和进化的能力。两者合在一起才构成通往更高阶 AI 的完整拼图。如果你正在头疼模型在多轮任务中“蠢笨”但找不着训练数据上下文窗口总被无效信息塞爆Agent 推理成本居高不下那么不妨试试把这个闭环跑起来。哪怕只迭代一两轮都可能让你对“模型的上限”有全新的认识。参考方向文中提及的核心思想来源ReAct、Toolformer、Reflexion —— Agent 交互范式与工具使用AgentBank —— 大规模轨迹微调SDFT、SDPO、SEAL —— 自蒸馏与自合成持续学习DARC、SPELL —— 非对称自博弈与课程式自进化SAC、LCLMs、RAM —— 可训练的上下文压缩TRACE、TraceLift —— 轨迹评估与过程奖励