面向LLM智能体工作流并行分支的直接潜在空间合成

📅 2026/6/17 10:03:26

面向LLM智能体工作流并行分支的直接潜在空间合成来源arXiv:2606.14672v1机构Georgia Institute of Technology, Meta 概述本文提出了一种名为Parallel-Synthesis Framework的新型框架旨在解决大型语言模型LLM中线性文本接口与现代有向无环图DAG并行智能体工作流之间的不匹配问题。传统方法通过序列化文本来合并并行分支的结果导致冗余计算。该框架允许下游合成器Synthesizer直接利用并行工作智能体Worker Agents的KV 缓存从而显著减少时间并提升推理性能。️ 核心架构与技术组件该框架的核心在于绕过文本序列化直接处理潜在空间Latent Space中的信息。1. 目标函数目标是使基于缓存的合成概率逼近基于文本序列的概率Pkv(y∣u,{KVθ(zj∣cj)}j1m)≈Ptext(y∣u,z1,…,zm)P_{\mathrm{kv}}\left(\mathbf{y}\mid u,\{\mathrm{KV}_{\theta}(z_j|c_j)\}_{j1}^m\right)\approx P_{\mathrm{text}}\left(\mathbf{y}\mid u,z_1,\ldots,z_m\right)Pkv(y∣u,{KVθ(zj∣cj)}j1m)≈Ptext(y∣u,z1,…,zm)2. 关键技术模块模块功能描述关键技术细节位置重编码 (Positional Re-encoding)将所有工作智能体的输出对齐到一个共享的后分支 RoPE 位置nnn。使用公式 $\tilde{k}_{z,j,r}^{\ell}R(nr)R(缓存映射器 (Cache Mapper)可学习的 MLP利用工作智能体的元数据如序列长度、索引sjs_jsj校准键/值。K^z,jℓαK,jℓ(sj)⊙K~z,jℓβK,jℓ(sj)\hat{K}_{z,j}^{\ell}\alpha_{K,j}^{\ell}(s_j)\odot\tilde{K}_{z,j}^{\ell}\beta_{K,j}^{\ell}(s_j)K^z,jℓαK,jℓ(sj)⊙K~z,jℓβK,jℓ(sj)实现自适应校准。合成器 LoRA专为非顺序缓存接口微调的适配器。仅在合成阶段激活不改变工作智能体侧的执行逻辑即插即用。训练策略为了防止灾难性遗忘并提升性能采用了两条互补的后训练轨道Post-training Tracks通过加权平均λ0.5\lambda0.5λ0.5合并检查点。轨道 1并行上下文下的通用适应目标教会模型读取和解释并行的 KV 缓存。数据继续预训练 (Continued-pretraining)WildChat, UltraChat, LMSYS-Chat将多轮对话编码为并行缓存。并行任务 SFTToucan, DTA-Tool, FLAN, 2WikiMultiHopQA指令遵循。轨道 2基于文本合成的知识蒸馏目标保留对缓存轨迹的推理和判断能力。数据通过文本序列化路由合成的 BrowseComp 轨迹筛选高质量推理轨迹作为监督目标。实验结果实验设置使用 Qwen3-14B 作为骨干模型在数学、科学问答、代码生成等 9 个数据集上评估。1. 准确率与性能对比对比项结果vs. 文本序列化在7/9的数据集上匹配或超越文本序列化方法。在推理密集型任务如 AIME 2025中提升显著46.67% vs 23.33%。vs. 多数投票 (Voting)在 8/9 的数据集上优于多数投票证明其利用了轨迹级信号中间步骤、证据质量而不仅仅是最终答案。vs. RAG 基线APE, CacheBlend, KVLINK 等基线在未训练的情况下表现不佳而 Parallel-Synthesis 证明了显式后训练的必要性。2. 效率提升首字时间 (TTFT) 降低减少了2.5× – 11×的冗余重新预填充Re-prefill开销。关键洞察与消融实验检查点合并优于顺序微调顺序应用轨道 1 和轨道 2 会导致能力覆盖Overwriting。合并检查点保留了互补优势。模块协同效应Cache Mapper LoRA的组合效果大于单独使用 LoRA两者缺一不可。轨迹粒度选择完整轨迹 (Full Trajectory)准确率最高延迟最高。最终输出 (Final Output)准确率-效率的最佳折中方案默认配置。每轮输出 (Each-Turn Output)表现最弱因缺乏工具观测导致轨迹碎片化。推理保留能力即使没有工作智能体给出正确答案Parallel-Synthesis 仍能合成有用的部分推理并在证据冲突时触发额外的工具调用。总结本文提出的 Parallel-Synthesis Framework 通过直接潜在空间合成解决了 LLM 在并行智能体工作流中的效率瓶颈。实验证明通过显式训练而非简单的推理时校准可以实现可靠的并行缓存合成在大幅减少推理延迟的同时提升了复杂任务的处理能力。

新闻详情

相关阅读

猫抓浏览器插件：免费资源嗅探工具终极指南，轻松下载网页视频音频

终极网页时光机指南：如何永久保存任何网页内容

为什么未来鸿蒙游戏的核心不再是渲染，而是 Runtime？

免费开源虚拟桌面伴侣终极指南：如何用Mate Engine打造个性化虚拟伙伴

SMBGhost漏洞复现实战：从原理到DoS攻击的完整操作指南

3步解锁AEUX：从Figma设计到After Effects动画的无缝转换秘诀

JMeter JSON提取器详解：从接口响应中精准提取与传递数据

【转载】华为开发者大会HDC2026主题演讲，亮点合集

终极键盘修复指南：如何用免费软件拯救你的机械键盘连击问题

2026最全面的AI大模型学习路线，适合零基础、大学习、想转行的

Awesome-Dify-Workflow：低代码AI编排的革命性突破

赛马娘DMM版中文汉化与性能优化全攻略：告别日文界面与卡顿烦恼