面向LLM智能体工作流并行分支的直接潜在空间合成

📅 2026/6/17 10:03:26
面向LLM智能体工作流并行分支的直接潜在空间合成
面向LLM智能体工作流并行分支的直接潜在空间合成来源arXiv:2606.14672v1机构Georgia Institute of Technology, Meta 概述本文提出了一种名为Parallel-Synthesis Framework的新型框架旨在解决大型语言模型LLM中线性文本接口与现代有向无环图DAG并行智能体工作流之间的不匹配问题。传统方法通过序列化文本来合并并行分支的结果导致冗余计算。该框架允许下游合成器Synthesizer直接利用并行工作智能体Worker Agents的KV 缓存从而显著减少时间并提升推理性能。️ 核心架构与技术组件该框架的核心在于绕过文本序列化直接处理潜在空间Latent Space中的信息。1. 目标函数目标是使基于缓存的合成概率逼近基于文本序列的概率Pkv(y∣u,{KVθ(zj∣cj)}j1m)≈Ptext(y∣u,z1,…,zm)P_{\mathrm{kv}}\left(\mathbf{y}\mid u,\{\mathrm{KV}_{\theta}(z_j|c_j)\}_{j1}^m\right)\approx P_{\mathrm{text}}\left(\mathbf{y}\mid u,z_1,\ldots,z_m\right)Pkv​(y∣u,{KVθ​(zj​∣cj​)}j1m​)≈Ptext​(y∣u,z1​,…,zm​)2. 关键技术模块模块功能描述关键技术细节位置重编码 (Positional Re-encoding)将所有工作智能体的输出对齐到一个共享的后分支 RoPE 位置nnn。使用公式 $\tilde{k}_{z,j,r}^{\ell}R(nr)R(缓存映射器 (Cache Mapper)可学习的 MLP利用工作智能体的元数据如序列长度、索引sjs_jsj​校准键/值。K^z,jℓαK,jℓ(sj)⊙K~z,jℓβK,jℓ(sj)\hat{K}_{z,j}^{\ell}\alpha_{K,j}^{\ell}(s_j)\odot\tilde{K}_{z,j}^{\ell}\beta_{K,j}^{\ell}(s_j)K^z,jℓ​αK,jℓ​(sj​)⊙K~z,jℓ​βK,jℓ​(sj​)实现自适应校准。合成器 LoRA专为非顺序缓存接口微调的适配器。仅在合成阶段激活不改变工作智能体侧的执行逻辑即插即用。 训练策略为了防止灾难性遗忘并提升性能采用了两条互补的后训练轨道Post-training Tracks通过加权平均λ0.5\lambda0.5λ0.5合并检查点。轨道 1并行上下文下的通用适应目标教会模型读取和解释并行的 KV 缓存。数据继续预训练 (Continued-pretraining)WildChat, UltraChat, LMSYS-Chat将多轮对话编码为并行缓存。并行任务 SFTToucan, DTA-Tool, FLAN, 2WikiMultiHopQA指令遵循。轨道 2基于文本合成的知识蒸馏目标保留对缓存轨迹的推理和判断能力。数据通过文本序列化路由合成的 BrowseComp 轨迹筛选高质量推理轨迹作为监督目标。 实验结果实验设置使用 Qwen3-14B 作为骨干模型在数学、科学问答、代码生成等 9 个数据集上评估。1. 准确率与性能对比对比项结果vs. 文本序列化在7/9的数据集上匹配或超越文本序列化方法。在推理密集型任务如 AIME 2025中提升显著46.67% vs 23.33%。vs. 多数投票 (Voting)在 8/9 的数据集上优于多数投票证明其利用了轨迹级信号中间步骤、证据质量而不仅仅是最终答案。vs. RAG 基线APE, CacheBlend, KVLINK 等基线在未训练的情况下表现不佳而 Parallel-Synthesis 证明了显式后训练的必要性。2. 效率提升首字时间 (TTFT) 降低减少了2.5× – 11×的冗余重新预填充Re-prefill开销。 关键洞察与消融实验检查点合并优于顺序微调顺序应用轨道 1 和轨道 2 会导致能力覆盖Overwriting。合并检查点保留了互补优势。模块协同效应Cache Mapper LoRA的组合效果大于单独使用 LoRA两者缺一不可。轨迹粒度选择完整轨迹 (Full Trajectory)准确率最高延迟最高。最终输出 (Final Output)准确率-效率的最佳折中方案默认配置。每轮输出 (Each-Turn Output)表现最弱因缺乏工具观测导致轨迹碎片化。推理保留能力即使没有工作智能体给出正确答案Parallel-Synthesis 仍能合成有用的部分推理并在证据冲突时触发额外的工具调用。 总结本文提出的 Parallel-Synthesis Framework 通过直接潜在空间合成解决了 LLM 在并行智能体工作流中的效率瓶颈。实验证明通过显式训练而非简单的推理时校准可以实现可靠的并行缓存合成在大幅减少推理延迟的同时提升了复杂任务的处理能力。