[论文学习]AgentLeak:多代理 LLM 系统中隐私洩露的全栈基准测试

📅 2026/6/29 4:01:31
[论文学习]AgentLeak:多代理 LLM 系统中隐私洩露的全栈基准测试
核心问题与动机多代理大型语言模型Multi-Agent LLM系统正快速应用于企业工作流程如医疗排程、金融合规与法律文件处理。这些系统能自主分解複杂任务、委派子任务给专门代理并透过内部协调完成工作。然而这带来严重的隐私风险敏感资料可能在代理间讯息、共享记忆体、工具呼叫等内部通道中洩露。而现有基准测试如 AgentDojo、PrivacyLens 等几乎都只关注最终输出final output无法捕捉这些「隐形」洩露。核心问题传统输出审核output-only auditing无法检测代理间通讯inter-agent messages与共享记忆体shared memory中的隐私违规。多代理架构扩大了攻击面每个代理自主决定分享内容缺乏集中监督与预设隐私控制。这违反了资料最小化原则data minimization敏感资料如病历、财务纪录、法律资讯仅应在必要时暴露且仅限于允许的通道。论文以情境完整性理论contextual integrity为基础强调即使在「信任」代理间不必要的内部传播也会增加攻击面、提升法规风险GDPR Art.25、HIPAA、最小必要标准等。研究者透过真实医疗工作流程案例发现排程代理最终输出乾淨但委派讯息却包含完整病历凸显问题的严重性。动机填补现有基准的空白提供第一个涵盖七大洩露通道的全栈基准支援多框架LangChain、CrewAI 等并量化多代理架构对隐私的独特影响。结果 / 成果AgentLeak 基准包含1,000 个情境涵盖医疗、金融、法律与企业四大领域。每个情境包含敏感资料库vault、允许揭露集合allowed disclosure set与地面真相标籤。主要实验设定五款生产级 LLMGPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、Mistral Large、Llama 3.3 70B。4,979 个有效执行追踪traces。焦点通道C1最终输出、C2代理间讯息、C5共享记忆体。七大通道分类外部通道C1、C3、C4、C6、C7与内部通道C2、C5。关键量化结果多代理配置降低最终输出洩露C127.2% vs. 单代理 43.2%显示多代理在输出端看似更「谨慎」。但总系统暴露大幅上升至 68.9%任一 C1/C2/C5 洩露即计为洩露较单代理增加1.6 倍。内部通道洩露严重C2代理间讯息高达68.8%C5共享记忆体46.7%内部平均洩露率是外部的2.1 倍。输出审核错过 41.7% 的违规。模式一致跨所有模型与领域C2 C1现象普遍。其他成果32 类攻击分类法attack taxonomy。三层检测管线Presidio NER 结构化栏位提取 LLM-as-Judge在生产环境中可侦测所有洩露。原型清理拦截器sanitization interceptor将内部洩露从 31.5% 降至 2.4%但任务成功率下降 4.7 点凸显隐私-效用权衡。开放原始码SDK与Hugging Face 资料集支援框架独立评估。分析与洞见多角度分析架构层面多代理的协调需求coordinator-worker 拓朴引入新风险。代理自主性导致不一致隐私行为现有框架如 CrewAI、AutoGPT优先协调缺乏内部通道的预设清理或存取控制。内部讯息常包含完整任务脉络远超最终输出所需。检测与评估三层管线结合规则、NER 与 LLM 判断克服单一方法限制。地面真相基于通道特定允许集合确保可重现性。威胁模型涵盖A0良性误操作、A1弱对手、A2强对手涵盖现实攻击向量。领域与模型通用性结果在四大受管制领域与五款模型中一致显示问题具系统性而非模型特定。大型推理模型的「leaky thoughts」现象在多代理层级被放大。边缘情况与相关考量任务複杂度高时代理更倾向过度分享以「完成任务」加剧洩露。长期记忆persistent memory使 C5 风险跨会话累积。法规意涵内部洩露虽非立即外部暴露但增加侧向移动lateral movement与稽核风险违反资料最小化要求。权衡过度清理可能损害代理协作效能需框架层级整合如讯息清理、栏位级记忆体控制。限制聚焦 coordinator-worker 拓朴未来可扩展其他拓朴与更多攻击情境。核心洞见隐私风险不再仅是模型行为问题而是系统架构设计问题。输出审核已不足够企业需全通道审计full-stack auditing才能符合法规并降低实际危害。结论AgentLeak 证明多代理 LLM 系统在内部通道存在严重且被低估的隐私洩露风险总暴露率远高于单代理模式。论文不仅提供基准、分类法与检测工具更呼吁社群将隐私-by-design融入框架层级预设讯息清理、记忆体存取控制与全通道稽核。影响与未来方向对开发者整合 AgentLeak SDK 进行例行评估。对研究者扩展到更多拓朴、动态允许集合或先进防禦。对企业受管制产业部署多代理系统前必须超越输出审核否则将面临重大合规与声誉风险。论文连结https://arxiv.org/abs/2602.11510 PDFhttps://arxiv.org/pdf/2602.11510GitHub 储存库https://github.com/Privatris/AgentLeak 包含基准、资料集、SDK 与追踪结果