晨会上组长问:“说说对Multi-Agent的看法”,我拿起保温杯:“上线后不是看谁的Agent更多,而是谁的Harness更稳!”,组长不断在点头。 📅 2026/6/25 13:36:23 有一位录友研究生方向就是 Multi-Agent这个方向还是不错的有很大的应用前景。什么是Multi-Agent也就是大家听说的负责 开发代码的Agent负责写需求的Agent负责产品的Agent负责测试的Agent。这些 Agent 都云端一起做一个项目一个Agent team不眠不休的干活顶过去一个大团队的工作量。过去一年几乎每个做大模型应用的团队都试过 AI Agent。一个输入框一个大模型几个工具一段 System Prompt再配一个漂亮前端。演示会上看起来很猛。老板觉得这不就是数字员工吗业务觉得终于能自动干活了。研发也觉得Planner、Worker、Reviewer 一拆事情稳了。这个故事看起来太诱人了但如果大家没有深入了解就不知道这里有多少坑。我最近和身边很多 做muti-agent的同学交流结合自己的经验给大家分享一下为什么理想很丰满现实很骨感。但你的multi agent 真正进生产问题马上来了。为什么 Agent 会反复调用同一个工具为什么一个简单任务能烧掉几十万 Token为什么某个子 Agent 失败后整条链路都挂了为什么最终结果看起来对但中间过程完全说不清为什么接入一个新工具要改十几处胶水代码为什么业务问一句这个结论怎么来的系统就只能沉默这就是 Demo 和生产之间的鸿沟。很多人以为跨过这条鸿沟靠的是更强的模型或者更精妙的 Prompt。不够。真正决定 Multi-Agent 系统能不能落地的是背后的运行时底座Multi-Agent Harness。也就是Agent 负责局部智能Harness 负责全局控制。现在很多大厂招人越来越倾向于招聘 能够驾驭多个agent一起工作的开发人员。大家可以想驾驭多个agent有啥难的。这篇文章我们就用面试视角把这个问题讲透本篇难度较高适合社招有Agent相关工作经验的录友学习刚接触Agent的在校学生可以做一个粗略了解。目录先说结论生产级 Multi-Agent 拼的不是 Agent 数量Harness 到底是什么面试官真正想考什么第一层架构编排Agent 出主意Harness 拿决定第二层工具治理Tool Registry 是安全边界第三层状态与记忆记住该记的忘掉该忘的第四层评估体系不要只看答案要看轨迹第五层成本控制Token Budget 是生命线第六层MCP 接入标准化不等于裸奔第七层可观测性和落地路线面试怎么答一、先说结论生产级 Multi-Agent 拼的不是 Agent 数量先把结论放前面未来的竞争不是谁的 Agent 更多而是谁的 Harness 更稳。Multi-Agent Demo 很容易做。你可以很快拆出一堆角色Planner Agent 负责拆任务Researcher Agent 负责查资料Coder Agent 负责写代码Reviewer Agent 负责审查Writer Agent 负责总结听起来很专业。但生产环境不是角色扮演。生产环境真正关心的是任务有没有生命周期失败后谁决定重试还是终止工具调用有没有权限和审计记忆会不会污染上下文Token 会不会无限烧轨迹能不能复盘高风险动作有没有审批接入 MCP 工具后会不会裸奔这些问题靠多加几个 Agent解决不了。甚至 Agent 越多问题越复杂。因为多个 Agent 会带来更多中间状态、更多工具调用、更多上下文复制、更多失败路径和更多不可观测行为。所以面试里如果你只说“我用了 Planner、Executor、Reviewer 多 Agent 协作。”这个回答还不够。更高级的回答是我怎么用 Harness 管住这些 Agent让它们可控、可评估、可追踪、可降级。Agent Demo 到生产级 Harness 的鸿沟二、Harness 到底是什么先解释概念。Harness 这个词直译有挽具、束具、约束装置的意思。放在 Agent 系统里可以理解为Harness 是把模型、Agent、工具、状态、记忆、评估、预算、安全统一收束起来的运行时框架。它不是一个单纯的 Prompt。Prompt 解决的是怎么让模型理解任务。Harness 解决的是怎么让模型可靠地完成任务。它也不只是 Orchestrator。Orchestrator 主要解决执行顺序。Harness 还要解决资源分配状态管理工具治理成本预算安全边界轨迹记录评估回归失败兜底它也不等于某个 Agent Framework。LangGraph、AutoGen、CrewAI 这些可以是搭建 Harness 的积木。但 Harness 是把这些积木拼成生产系统的工程方案。可以用一个类比理解Prompt 是台词。Agent 是演员。Tool 是道具。Model 是大脑。Harness 是导演、调度台、安全规章、监控系统和预算中心。没有 HarnessAgent 再多也只是即兴表演。有了 HarnessAgent 才可能稳定地做生产任务。生产级 Multi-Agent Harness 总体架构三、面试官真正想考什么面试官问 Multi-Agent不一定是想听你背框架 API。他真正想看的是你有没有生产级系统思维。比如他问“你们 Multi-Agent 是怎么协作的”很多录友会答“我们有一个 Planner 负责拆解任务然后交给多个 Worker最后由 Reviewer 汇总。”这个答案没错。但还停留在 Demo 层。面试官会继续追问Planner 生成的计划谁来审查Worker 失败后谁决定重试一个 Agent 能不能调用所有工具工具参数错了怎么拦Agent 调用次数有没有上限中间轨迹怎么评估Token 超预算怎么办用户问为什么这么回答你能不能还原过程这些问题都指向同一个核心Multi-Agent 系统里决策权到底在 Agent 手里还是在 Harness 手里。生产级原则只有一句Agent 负责局部智能Harness 负责全局控制。如果你把调度、权限、预算、重试、终止都交给模型自己决定。那系统就很容易变成Agent 想继续就继续Agent 想调什么工具就调什么工具Agent 想重试几次就重试几次Agent 想怎么解释就怎么解释这不是智能。这是失控。四、第一层架构编排Agent 出主意Harness 拿决定Multi-Agent 最常见的失败模式不是 Agent 不够聪明。而是决策权交错了人。很多系统会让 Planner Agent 自己决定调哪个 Agent要不要继续要不要重试什么时候结束是否跳过某个步骤短期看很灵活。长期看很危险。因为大模型不是可靠调度器。它没有天然的成本意识、并发意识、权限意识、全局一致性意识。真正生产级的做法是Planner 可以提出计划但 Orchestrator 必须裁决计划。具体来说Harness 至少要掌握五类决策权。1. 任务生命周期每个任务都要有明确状态。比如created → planned → running → reviewing → completed ↓ failed / cancelled / timeout不能只是一个模糊的Agent 还在跑。有状态机才能做超时、重试、回滚、审计。2. 执行计划裁决计划可以来自静态 DAG也可以来自 Planner Agent。但计划生成后必须由 Orchestrator 接管。每一步能不能跑、能不能并行、是否越权、是否超预算都要由 Harness 判断。这里有一个细节Planner 应该输出声明式计划而不是命令式调用。声明式计划长这样{ step: 1, intent: research, agent: researcher, input: 检索相关资料}命令式调用长这样await researcher.run(检索相关资料)区别很大。声明式计划给 Harness 留了介入空间。Harness 可以重排、并行、拒绝、降级、加审批。命令式调用等于把方向盘交给 Agent。别让 Agent 开车让 Agent 当导航。3. Agent 路由不是每个 Agent 都能处理每个任务。Researcher 不该写数据库。Coder 不该处理财务审批。Reviewer 不该直接执行删除操作。路由要结合任务类型Agent 能力工具权限历史质量评分当前成本预算这不是 Prompt 能稳定解决的。这是 Harness 的调度逻辑。4. 失败处理某个 Agent 失败后怎么办是重试、降级、跳过、转人工还是终止这不能让出错 Agent 自己说了算。失败处理必须由 Harness 统一管理。比如参数错误打回重填工具超时换备用工具预算不足降级模型高风险动作失败终止并记录审计多次失败转人工5. 硬终止条件Agent 最怕没有边界。生产系统必须有硬闸max_stepsmax_tokensmax_durationmax_tool_callsmax_retries这些条件不能写在 Prompt 里当建议。必须是代码层面的强制约束。Agent 和 Harness 的决策权边界五、第二层工具治理Tool Registry 是安全边界Agent 的能力绝大部分来自工具。没有工具Agent 只是会聊天。有了工具Agent 才能查数据库、读文件、跑代码、调接口、生成工单。但工具越强风险越大。一个能读文件的 Agent可能读到不该读的。一个能写数据库的 Agent可能误删生产数据。一个能跑代码的 Agent可能直接造成事故。一个能调外网的 Agent可能把敏感信息发出去。所以生产级 Harness 里工具不能是普通函数。工具是生产资源的授权点。所有工具调用都应该经过 Tool Registry。一个合格的 Tool Registry至少要登记这些信息工具名称工具描述输入 JSON Schema允许调用的 Agent 列表超时和速率限制风险等级是否需要人工确认输出结构审计日志策略这背后的思维转变很关键给 Agent 一个工具不是给它一个函数而是给它一把权限钥匙。这把钥匙能开哪些门、谁能用、什么时候用、留不留痕必须从第一天就设计。很多团队会说“MVP 阶段先不上 Tool Registry 行不行”我不建议。因为工具治理不是装饰层。它是结构层。如果一开始每个 Agent 都各自直接调工具后面系统会迅速变成一堆散落的特权代码。等你想统一收回来代价很高。正确做法是哪怕只有 3 个工具也从第一天开始强制走 Tool Registry。先有规矩再扩规模。Tool Registry 工具治理链路六、第三层状态与记忆记住该记的忘掉该忘的Multi-Agent 系统里记忆这个词经常被浪漫化。很多文章会说“Agent 要像人一样积累经验。”但生产环境里记忆首先不是浪漫问题。而是工程问题。记忆系统最常见的坑有四个记得太少每次都像第一次记得太多上下文膨胀成本爆炸不分层临时状态和长期知识混在一起不遗忘过期信息长期污染决策正确做法是先分清State 是当前任务运行所需的数据。Memory 是跨任务复用的经验和知识。1. State当前任务的运行状态State 生命周期短关心一致性。可以分三层Working State当前步骤的临时上下文任务结束就丢。Session State一次会话里多个 Agent 共享的信息可以放 Redis设置 TTL。Execution Log不可变执行日志不一定参与推理但必须用于审计、回放、评估。2. Memory跨任务复用的经验Memory 生命周期长关心相关性。常见分两类Episodic Memory事件记忆比如踩过的坑、用户偏好、某类问题处理经验。Semantic Memory语义记忆比如领域概念、业务规则、工具约束。3. 注入时机不要把所有记忆都塞进上下文记忆不是越多越好。任务前自动注入简单稳定但费 Token。按需检索省钱但 Agent 可能忘记调用。生产上更推荐混合模式前置注入少量高置信记忆再提供memory_search工具让 Agent 按需查。4. 遗忘机制记忆需要修剪一个只增不删的记忆系统迟早会退化。检索越来越慢。相关性越来越差。过期信息还会污染新决策。所以记忆要有保留分数。可以综合访问频次创建时间重要性最近使用是否仍被验证有效低分记忆删除。中分记忆压缩摘要。高分记忆保留原文。记忆不是仓库是花园。需要定期修剪。Multi-Agent 状态与记忆分层七、第四层评估体系不要只看答案要看轨迹Multi-Agent 系统的评估是最容易被低估的环节。单 Agent 评估相对简单输入一个问题看最终答案对不对。Multi-Agent 不一样。它有计划、有中间步骤、有工具调用、有 Agent 协作、有重试、有审查、有最终合成。如果只看最终答案会漏掉很多危险信号。比如最终报告对了但中间用了未授权数据源最终代码能跑但 Agent 调了十几次无意义工具最终回答完整但关键事实来自错误检索某次任务成功只是因为重试碰巧撞上了正确答案所以 Multi-Agent Eval 不能只看 final answer。要看轨迹。生产级 Eval 至少四层。1. Component Eval评估单个 Agent 或工具调用。比如Agent 是否选对工具参数是否合规输出是否符合角色职责是否调用了禁止工具2. Trajectory Eval评估中间执行轨迹。这是 Multi-Agent 最大的重点。要看步骤是否必要顺序是否合理是否重复调用是否陷入循环是否过早下结论3. Task Completion Eval评估任务完成度。比如是否满足用户目标是否覆盖必要信息是否存在事实错误是否需要人工补救4. End-to-End Eval评估端到端业务效果。比如用户是否采纳人工返工率处理时长单位任务成本投诉率这里要特别说一句LLM-as-Judge 不是万能药。它适合评估表达完整性、总结质量、推理连贯性。但事实正确性、代码可运行性、SQL 结果、权限合规应该优先用确定性检查。成熟 Eval 一定是混合的单元测试检查代码Schema 校验结构化输出规则引擎检查安全约束检索对齐校验证据来源LLM-as-Judge 评开放式表达人工抽检校准 Judge 偏差更重要的是Eval 必须进入 CI。每次改 Prompt、换模型、加工具、调参数都要跑回归。对 Agent 系统来说Prompt 就是代码工具 Schema 就是接口执行轨迹就是日志Eval 就是测试体系。没有 Eval每次优化都是凭感觉调参。Multi-Agent Eval 四层评估体系八、第五层成本控制Token Budget 是生命线很多团队第一次跑通 Agent最震惊的不是模型能力。而是账单。Multi-Agent 为什么烧钱因为每个 Agent 都有 System Prompt。每个 Agent 都需要上下文。工具结果会被塞回模型。Planner 生成计划Worker 执行步骤Reviewer 审查输出。失败后还要重试。多轮协作让历史不断复制膨胀。如果没有成本控制Agent 系统会从智能助手变成预算黑洞。生产级 Harness 必须有 Token Budget。它不是事后统计。而是实时调度。核心逻辑是根据任务复杂度分配预算执行中实时监控触发不同等级的降级策略。1. Model Routing不是所有步骤都需要最强模型。分类、摘要、格式转换用小模型。复杂推理、最终合成用强模型。高风险审查用强模型加规则校验。低价值重试禁止使用高价模型。目标不是一味省钱。而是在质量和成本之间找到可控平衡。2. Context Compression很多 Token 浪费来自历史膨胀。有效做法是保留最近几轮原文。更早历史压缩成结构化摘要。摘要里只保留关键事实、决策、未解决问题、工具结果引用。但不能一刀切。事实型任务必须保留原始引用。合规型任务关键证据不可压缩。3. Budget 分级降级可以把预算分成四个区间绿区正常执行黄区压缩上下文红区切小模型跳过非必要步骤熔断区强制收束返回 partial result 或转人工这就是 Harness 的价值。它不等 Agent 自己发现没钱了。它在执行中实时控制。生产环境至少要监控单任务 Token 总量单 Agent Token 占比工具结果 Token 占比重试 Token 占比预算熔断次数单位业务结果成本当你能回答每完成一个合格任务多少钱Agent 系统才真正进入可运营阶段。Token Budget 成本控制状态机九、第六层MCP 接入标准化不等于裸奔MCP也就是 Model Context Protocol是现在 Agent 工具体系里很值得关注的方向。它解决的是工具接入标准化问题。过去每接一个工具都要为不同模型、不同框架写不同适配器。MCP 把这件事标准化了。工具一次实现支持 MCP 的 LLM 应用都可以调用。你可以把它理解成MCP 之于 AI 工具就像 USB-C 之于充电接口。它对 Multi-Agent Harness 的意义很大快速扩展工具能力复用生态里的 MCP Server解耦工具和模型降低工具接入成本但注意标准化不等于安全。工具越容易接入越需要 Harness 做安全网关。这里一定要说清楚MCP 提供能力Harness 提供治理。不要把 MCP Server 直接暴露给 Agent。必须经过 Tool Registry。接入 MCP 的最佳实践1. MCP Server 不直连 AgentAgent 不能直接看到 MCP Server 暴露的所有工具。必须先经过 Harness 过滤。2. 工具白名单哪怕 MCP Server 暴露 50 个工具也只开放当前业务需要的几个。而且要按 Agent 授权。3. 单独配额每个 MCP Server 都要有独立 timeout、rate limit、并发限制和预算。一个异常 MCP Server 不应该拖垮整个系统。4. 高风险 Human-in-the-Loop文件写入、删除、代码执行、数据库写、外部支付这些都不能让 Agent 自动执行。必须走人工确认或审批。5. 全链路 Trace每次 MCP 调用都要记录调用者是谁调用了哪个工具参数是什么返回是什么是否被审批是否触发降级没有 Trace就没有生产级 Agent。MCP 接入 Harness 安全网关十、第七层可观测性和落地路线传统后端出问题我们看日志、指标、链路追踪。Agent 系统更需要这些。因为 Agent 的错误很多时候不是异常。而是过程偏移。它可能调用了错误工具。可能读取了错误记忆。可能误解了用户目标。可能因为压缩丢了关键约束。可能因为预算不足提前收束。可能因为路由用了能力不够的小模型。这些如果没有 Trace你根本不知道问题在哪。一个可观测的 Harness至少要记录用户原始输入Planner 输出的计划每一步 Agent 输入输出工具调用参数和结果检索到的记忆和文档模型路由选择Token 消耗失败和重试原因降级和熔断记录最终输出和评估结果这样出了问题才能复盘。不然你只能听模型解释。那不叫可观测。那叫祈祷。落地路线不要一步到位Multi-Agent Harness 不是一天建成的。我建议分三阶段。Phase 1MVP目标是跑通一条端到端业务闭环。最小配置简单 OrchestratorTool Registry基础状态管理基础 Trace小规模评估集不要一开始就上十个 Agent、动态 Planner、复杂长期记忆。先把一条链路跑稳。Phase 2Hardening目标是把 Demo 变成可控系统。这一阶段补权限控制Token Budget重试和降级上下文压缩轨迹评估审计日志回归测试重点解决为什么错哪里贵哪里慢哪里不安全Phase 3Scale目标是支撑更多场景和并发。这一阶段再做分布式队列多租户隔离动态模型路由Agent 质量排行榜A/B 测试长期记忆治理统一 MCP 接入平台成本看板很多团队的问题是一开始就想进 Phase 3。结果基础 Harness 没搭好系统直接变成一团复杂胶水。先稳定再扩规模。十一、面试怎么答如果面试官问“你怎么看 Multi-Agent 的未来是不是 Agent 越多越强”你可以这样答我不认为未来竞争是看谁堆了更多 Agent。Multi-Agent Demo 阶段确实可以靠 Planner、Worker、Reviewer 这些角色快速做出效果但生产环境真正难的是稳定性、成本、权限、评估和可观测性。我的理解是Agent 负责局部智能Harness 负责全局控制。Agent 可以提出计划、执行局部任务、调用工具但任务生命周期、执行计划裁决、Agent 路由、失败重试、预算控制和硬终止条件必须由 Harness 掌握。生产级 Multi-Agent Harness 至少要有几层能力。第一是编排调度Planner 输出声明式计划Orchestrator 统一裁决。第二是工具治理所有工具必须经过 Tool Registry做 schema 校验、权限控制、风险分级、人工确认和审计。第三是状态和记忆要区分短期 State 和长期 Memory并且有检索时机和遗忘机制。第四是 Eval不只看最终答案还要评估中间轨迹、工具调用、任务完成度和端到端业务指标。第五是 Token Budget通过模型路由、上下文压缩和预算熔断控制成本。第六是 MCP 接入MCP 提供工具标准化能力但不能直连 Agent必须经过 Harness 安全网关。所以我会把 Multi-Agent 落地理解成一个系统工程而不是多 Prompt 拼盘。未来真正有壁垒的不是 Agent 数量而是 Harness 能不能让这些 Agent 在边界内稳定行动并且做到可追踪、可评估、可降级、可审计。这个回答的重点不是说你知道多少框架。而是让面试官听出来你知道 Agent 为什么在 Demo 里很热闹也知道它为什么在生产里容易翻车。更重要的是你知道怎么把它管住。这就是 Harness 的价值。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】