AI Agent 运行时架构革命:Session 日志化与无状态执行

📅 2026/6/30 20:18:45
AI Agent 运行时架构革命:Session 日志化与无状态执行
1. 这不是新赛道是 runtime 层的“操作系统时刻”来了你有没有试过让一个 AI 代理连续工作四十分钟不是闲聊而是真正在做事情查数据库、调 API、读文档、写代码、改配置、再验证——一环扣一环。去年我带团队跑一个客户的数据迁移项目用的是自研的 agent 框架所有 session 状态都塞在模型 context 里。前 35 分钟一切丝滑第 38 分钟context 突然满了。模型没报错没中断甚至没提示。它只是默默把最早调用的三个工具返回结果从上下文里“挤掉”然后基于一个残缺的、自己脑补出来的历史继续推理。最后生成的 SQL 语句连表名都拼错了但语气特别笃定。我们花了三小时回溯日志才发现根本没日志可查——整个 session 的执行轨迹只活在那块不断被覆盖的 context window 里。它不是崩了是悄无声息地腐烂了。这就是 Anthropic 在 4 月 8 日发布的Claude Managed Agents真正解决的问题。它不是又一个“让 AI 更聪明”的玩具而是一次对 agent 架构底层逻辑的外科手术式修正。核心就两条Session 作为独立、持久、可查询的事件日志存在Harness执行器彻底无状态只负责按需拉起沙箱、传入输入、拿回输出。这个设计直接把模型 context 从“承重墙”降级为“临时白板”。状态不再寄生在推理过程中而是沉淀为结构化、可审计、可重放的事件流。你今天下午三点零七分让 agent 查了 CRM 里的客户 A 订单这个动作会像银行流水一样被写进一个独立于任何模型实例的存储里。哪怕 harness 进程崩溃、机器宕机、甚至整个集群重启只要 sessionId 还在awake(sessionId)就能精准续上从上一个 checkpoint 开始而不是从头再来。这背后的技术选择全是血泪教训堆出来的。比如 sandbox 的设计Anthropic 明确说它是 “cattle, not pets”——牛群不是宠物。意思是每个沙箱都是按需创建、用完即焚的标准化单元绝不允许你登录进去手动改配置、装依赖、调环境变量。为什么因为去年我们有个 agent 在沙箱里执行curl命令时把一个本该严格隔离的 AWS 临时凭证通过环境变量意外注入到了请求头里。那个 token 被模型“看到”后被它原封不动地写进了下一个工具调用的参数里最终触发了云平台的异常访问告警。这种错误99% 都源于开发者试图把沙箱当服务器用。Anthropic 的方案是釜底抽薪沙箱启动时凭据由 Anthropic 的 vault 直接注入到沙箱内核层agent 进程根本接触不到原始字符串它只能拿到一个预授权的、作用域极窄的调用句柄。这不是功能炫技是生产环境里用命换来的安全水位线。所以当你看到新闻稿里说“Notion 和 Asana 已采用”别只盯着大厂背书。要看到 Notion 是怎么用它的不是让 Claude 在 Notion 页面里随便聊天而是把“整理会议纪要→提取待办事项→自动创建 Asana task→同步负责人”这一整条工作流封装成一个可复用、可审计、可回滚的 agent session。每一次触发都是一次原子化的业务事件而不是一次不可追溯的对话。这才是 Managed Agents 的真实切口——它不卖“更聪明的模型”它卖的是“可交付、可运维、可计费的 AI 工作单元”。2. 架构解剖三层分离每层都在解决一个具体痛点Anthropic 的工程博客里反复强调“decoupled agent stack”听起来很抽象。但拆开来看它就是用三个清晰、互不依赖的组件分别干掉了 agent 开发中三个最让人头疼的脏活累活。这三层不是理论模型是实打实的工程接口每一层都对应着过去两年里无数团队踩过的深坑。2.1 Session 层从“内存快照”到“银行流水”传统 agent 的 session本质就是一个不断膨胀的 prompt 字符串。你喂给模型的 system prompt、user message、assistant reply、tool call 结果、tool response……全堆在一起靠模型自己去理解哪些是“当前任务”哪些是“历史参考”。这就像让一个会计员把所有客户的账本、自己的草稿纸、老板的口头指示、打印机卡纸的报错信息全揉进一张 A4 纸里然后要求他根据这张纸完成一笔复杂的跨境汇款。纸满了他就开始乱删——删掉谁的账本删掉哪条指令完全不可控。Managed Agents 的 Session 层把这个混乱的“纸”升级成了“银行核心系统”。它是一个独立的、持久化的、结构化的事件日志服务。每一次交互无论大小都被记录为一条带时间戳、sessionId、eventType如tool_call_requested,tool_response_received,guardrail_triggered、payload 的 JSON 事件。关键在于这个日志服务与任何具体的模型实例、任何具体的 harness 进程完全解耦。它可能跑在 DynamoDB 上也可能跑在专为时序数据优化的 TimescaleDB 里但对上层来说它就是一个可靠的、append-only 的事件总线。提示这个设计带来的第一个实操红利是调试效率的指数级提升。以前排查一个失败的 session你要翻 N 个服务的日志拼凑出模型看到了什么、工具返回了什么、中间哪个环节超时了。现在你只需要一个GET /sessions/{id}/events请求就能拿到完整的、按时间排序的执行轨迹。我们内部测试过一个平均耗时 12 分钟的复杂数据清洗 agent定位一次因外部 API 返回格式变更导致的失败从平均 47 分钟缩短到 3 分钟以内。因为所有“发生了什么”都明明白白写在日志里而不是藏在某个模型的隐状态里。2.2 Harness 层无状态的“快递员”只管送不管存Harness 是整个架构里最反直觉的一层。它看起来最“轻”却承担着最关键的职责绝对无状态。它的唯一工作就是接收一个execute(name, input)的调用然后去调度一个沙箱把input传进去等沙箱返回一个string再把这个string原样交还给上层。它不保存任何中间状态不缓存任何工具结果不维护任何 session 上下文。你可以把它想象成一个极其高效的快递员你告诉他“把这封信送到 302 房间”他跑一趟把信送进去再把房主签收的回执带回来。他不会记住你昨天也给他送过信也不会关心 302 房间里住的是谁。这个设计直接解决了两个老大难问题。第一是弹性伸缩。当你的 agent 流量突然暴涨十倍传统架构需要扩容整个“有状态”的服务集群成本高、延迟大。而 Harness 层因为完全无状态可以瞬间水平扩展——加一百个新实例它们都干同一件事且彼此之间零依赖。第二是故障恢复。如果一个 Harness 进程在执行中崩溃了上层比如 Session 服务会立刻感知到并用同一个sessionId发起一个新的awake()调用。新的 Harness 实例会去 Session 日志里找到上一个成功的 checkpoint比如“已成功调用 CRM API 获取客户列表”然后从那里开始重新执行后续步骤。整个过程对用户是透明的没有数据丢失没有状态错乱。这比任何 fancy 的分布式事务框架都来得干净利落。2.3 Sandbox 层按需创建的“一次性实验室”如果说 Session 是大脑的记忆Harness 是神经信号那么 Sandbox 就是手和脚。但它不是一双永远长在身上的手而是一个按需召唤、用完即焚的“一次性实验室”。每次execute()被调用Anthropic 的基础设施就会动态创建一个全新的、隔离的执行环境。这个环境拥有独立的 CPU、内存、网络栈甚至文件系统。更重要的是它的生命周期被严格限定一旦execute()返回这个沙箱就会被立即销毁所有内存清空磁盘擦除不留一丝痕迹。这个“cattle”哲学是生产级 agent 的生命线。我们曾在一个金融风控项目里吃过亏为了加速一个需要大量数值计算的 agent我们在沙箱里预装了一个定制的 C 数学库。结果某次库更新引入了一个内存泄漏 bug。这个 bug 不会立刻崩溃但会让沙箱的内存占用缓慢爬升。几天后当数百个沙箱同时运行时宿主机内存耗尽整个 agent 服务雪崩。如果沙箱是“pets”我们会花一周时间去 debug、打补丁、滚动升级。而如果是“cattle”解决方案简单粗暴把沙箱的默认生命周期从“无限”改成“最多运行 10 分钟”超时自动销毁。那个内存泄漏 bug永远没机会积累到致命程度。它被扼杀在摇篮里代价只是多创建了几次沙箱——而这在云环境下成本几乎可以忽略不计。注意Sandbox 的隔离性是 Anthropic 安全模型的基石。它确保了 credential isolation凭据隔离成为可能。沙箱启动时凭据由 Anthropic 的密钥管理服务KMS直接注入到沙箱内核的受保护内存区域agent 进程的用户态代码连getenv(AWS_ACCESS_KEY)都调用不到。它只能通过一个预定义的、权限极窄的 IPC 接口向沙箱内核发起一个“请帮我调用一下 S3 的 ListObjectsV2 接口”的请求。内核验证权限后代为执行并将结果返回。Agent 永远不知道凭据是什么它只知道“我能做这件事”。这是真正的“最小权限原则”落地不是靠文档承诺而是靠硬件级的隔离保障。3. 实操指南从 YAML 定义到生产部署的完整链路光看架构图是没用的。真正决定一个技术能否落地的是它从“Hello World”到“支撑百万日活”的那条实操路径。Managed Agents 的设计哲学就是让这条路径尽可能短、尽可能平滑。下面我就以一个真实的、我们为某电商客户构建的“智能客服工单分类与路由 agent”为例带你走一遍从定义到上线的全流程。所有命令、配置、参数都是我在生产环境里亲手敲过的。3.1 第一步用 YAML 定义你的 agent不是写代码Managed Agents 最大的友好之处在于它把 agent 的“灵魂”——系统行为、工具能力、安全边界——全部抽象成一份人类可读、机器可解析的 YAML 文件。你不需要写一行 Python 或 JavaScript 来启动一个 agent。这份 YAML就是你的 agent 的“宪法”。# agent-config.yaml name: ecommerce-ticket-router description: Routes customer support tickets to the correct internal team based on content and urgency. system_prompt: | You are a senior support triage agent for Acme E-commerce. Your job is to analyze incoming customer tickets and route them to the right team. You have access to two tools: analyze_sentiment (to gauge urgency) and classify_intent (to determine topic). ALWAYS use both tools before making a final routing decision. NEVER make a routing decision based solely on your own reasoning. tools: - name: analyze_sentiment description: Analyzes the sentiment and urgency level of the ticket text. input_schema: type: object properties: text: type: string description: The full text of the customers ticket. # Anthropic 会自动为你生成符合此 schema 的 tool call 参数 - name: classify_intent description: Classifies the main intent or topic of the ticket. input_schema: type: object properties: text: type: string description: The full text of the customers ticket. guardrails: - type: content_filter severity: block categories: [hate_speech, harassment] - type: output_format required_keys: [team, urgency_level, confidence_score] # 强制 agent 的最终输出必须是包含这三个 key 的 JSON 对象这份 YAML 的每一个字段都对应着一个明确的工程决策。system_prompt不是泛泛而谈的“你是个好助手”而是精确描述了 agent 的角色、职责、以及必须遵守的流程约束“ALWAYS use both tools”。tools部分你只需描述工具“能做什么”和“需要什么输入”Anthropic 会自动生成调用逻辑你不用关心curl怎么写、API key 怎么传。guardrails则是安全兜底它把“内容过滤”和“输出格式校验”变成了声明式的配置项而不是需要你在代码里写 if-else 的逻辑。实操心得别小看output_format这个 guardrail。在我们第一个版本里忘了加它agent 有时会输出一段自然语言解释有时会输出 JSON。下游的工单系统无法处理这种不一致导致大量 ticket 卡在“待处理”队列。加上这行配置后Anthropic 的 runtime 会在 agent 输出后自动校验如果格式不对它会强制让 agent 重试直到输出符合要求为止。这省去了我们自己写 JSON Schema 校验和重试逻辑的几千行代码。3.2 第二步部署与启动——三行命令搞定有了 YAML部署就变得像启动一个 Docker 容器一样简单。Anthropic 提供了一个 CLI 工具claude-agent-cli它封装了所有底层的 API 调用和认证细节。# 1. 登录你的 Anthropic 账户使用 API Key claude-agent-cli login --api-key sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx # 2. 创建一个新的 agent 实例指定你的 YAML 配置文件 claude-agent-cli create --config agent-config.yaml --name prod-ticket-router-v1 # 3. 启动它它会返回一个唯一的 agent_id这就是你后续调用的入口 claude-agent-cli start --agent-id agt_abc123def456就这么三行命令你的 agent 就已经在 Anthropic 的全球边缘节点上运行起来了。它会自动获得一个 HTTPS endpoint比如https://api.anthropic.com/v1/agents/agt_abc123def456/invoke。你不需要管理服务器、配置负载均衡、设置 TLS 证书。这些都是 Managed Agents 的“默认行为”。3.3 第三步在你的应用里调用它Python 示例调用一个 Managed Agent和调用一个 RESTful API 几乎没有区别。下面是我们集成到客户 Zendesk 工单系统的 Python 代码片段import requests import json # 这是你在上一步得到的 agent_id AGENT_ID agt_abc123def456 ANTHROPIC_API_KEY sk-ant-api03-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx def route_ticket_to_team(ticket_text: str) - dict: 调用 Managed Agent 对工单进行分类和路由 Returns: {team: billing, urgency_level: high, confidence_score: 0.92} url fhttps://api.anthropic.com/v1/agents/{AGENT_ID}/invoke headers { x-api-key: ANTHROPIC_API_KEY, anthropic-version: 2023-06-01, Content-Type: application/json } payload { input: { text: ticket_text # 这就是传给 agent 的 user message }, session_id: sess_ str(int(time.time())) # 为本次调用创建一个唯一 session_id } response requests.post(url, headersheaders, jsonpayload, timeout60) if response.status_code 200: result response.json() # Managed Agents 的响应体里包含了完整的 session 事件日志的 URL # 你可以用它来做审计和调试 audit_log_url result.get(audit_log_url) return result[output] # 这就是 guardrail 校验后的标准 JSON 输出 else: raise Exception(fAgent invocation failed: {response.status_code} {response.text}) # 在 Zendesk 的 webhook 处理函数里调用它 def handle_new_ticket(zendesk_ticket): try: routing_decision route_ticket_to_team(zendesk_ticket[description]) # 根据 routing_decision[team]自动把 ticket 分配给对应的 Zendesk group assign_to_group(zendesk_ticket[id], routing_decision[team]) except Exception as e: # 记录错误但不要让整个工单流程失败 logger.error(fFailed to route ticket {zendesk_ticket[id]}: {e})这段代码的关键点在于它极度轻量且与 Anthropic 的实现细节完全解耦。如果明天 Anthropic 把底层 runtime 换成另一个更先进的沙箱技术只要invoke这个 API 接口不变你的这段 Python 代码就完全不需要修改。这就是“稳定抽象”的力量——它让你的业务逻辑稳稳地站在一个不会轻易晃动的地基上。3.4 第四步监控、调试与计费——一切尽在掌控Managed Agents 的控制台不是一个花哨的仪表盘而是一个工程师的作战室。它提供了三个维度的实时视图Session 视图以sessionId为单位列出所有最近的执行。你可以点击任何一个 session看到它完整的、按时间排序的事件日志Event Log包括每一次 tool call 的输入/输出、每一次 guardrail 的触发、每一次 harness 的启停。这是你排查问题的第一站。Performance 视图展示关键性能指标。p50 time-to-first-token50% 的请求从发送到收到第一个 token 的时间和p95 time-to-first-token95% 的请求是核心。Anthropic 宣称 p50 下降约 60%p95 优于 90%。我们在实际压测中对一个中等复杂度的 agent测得 p50 为 1.2 秒p95 为 3.8 秒这已经非常接近一个本地微服务的响应速度了。Billing 视图清晰地告诉你钱花在哪了。费用分为两部分$0.08 per session-hour of active runtime按 session 实际运行的 CPU 时间计费以及标准的 Claude token 费用按输入/输出 token 数计费。这意味着如果你的 agent 大部分时间在等待外部 API 响应I/O wait这部分时间是不收费的。只有当 harness 真正在 CPU 上执行代码、或沙箱在运行计算密集型任务时才会计费。这比按“请求次数”或“总时长”计费的模式要公平和精细得多。实操心得我们最初犯了个错误把session_id设为一个固定的字符串比如prod-router。结果发现所有并发请求都挤在同一个 session 上导致性能瓶颈。后来改成fsess_{uuid.uuid4()}每个请求都有独立的 session性能立刻提升了 3 倍。这再次印证了 Session-as-Event-Log 的设计初衷session 是一个轻量的、可并行的执行单元而不是一个沉重的、共享的状态容器。4. 竞争格局与残酷现实为什么说这个 layer 正在“归零”Anthropic 的 Managed Agents 发布被很多媒体包装成“开创了 agent 新时代”。但如果你把镜头拉远放到整个云计算基础设施的演进长河里去看它更像是一个巨头在一场早已打响的战争中投下的一枚防御性炮弹。这场战争的主角不是 Anthropic而是 AWS、Google、Microsoft 这些“云原生”巨兽。它们早已把 agent runtime 这一层当成了自己云平台的“空气”和“水电”。4.1 Hyperscaler 的碾压式布局免费即正义就在 Anthropic 发布 Managed Agents 的五个月前也就是 2025 年底Amazon Bedrock AgentCore就已经进入“General Availability”正式商用阶段。它的 SDK 在发布后的前五个月下载量就突破了两百万次。这不是一个“实验性功能”而是一个被数以万计的开发者、企业客户深度集成到生产环境里的成熟产品。AgentCore 的核心优势是它根本不需要你额外付费。它被无缝集成在 AWS 的整个生态里。你用 EC2、Lambda、RDSAgentCore 的 runtime 就运行在你已有的 VPC 和安全组里你用 IAM 管理权限AgentCore 的沙箱就自动继承这些策略你用 CloudWatch 做监控AgentCore 的所有指标就自动流入其中。它的沙箱甚至不是虚拟机而是更轻量、更安全的 microVM微型虚拟机每个 session 都拥有完全隔离的 CPU、内存和文件系统。你可以让它运行长达八个小时——这已经足够支撑一个完整的、跨多个时区的自动化工作流。Google Vertex AI Agent Builder 和 Microsoft Azure AI Foundry 的策略如出一辙。Vertex 的 Agent Registry 可以通过 Apigee谷歌的 API 网关直接暴露为一个标准的 REST APIAzure 则把 AutoGen 和 Semantic Kernel 这两个开源框架直接“编译”进了 Foundry 的 runtime让你可以用自己熟悉的框架却享受微软云的托管服务。它们的目标非常明确不跟你比“runtime 有多酷”而是比“你用我的云就等于免费拥有了最好的 runtime”。当你的 CFO 看到 AWS 的账单上AgentCore 的费用是 $0.00而 Anthropic 的账单上写着 $0.08/session-hour再加上 token 费用这个决策几乎不需要讨论。4.2 开源势力的闪电崛起从 dev-env 到 infra如果说 hyperscaler 是用“免费”来降维打击那么开源社区则是在用“速度”和“灵活性”来蚕食市场。2025 年初一个叫Daytona的项目原本是做开发者环境dev-env的突然宣布全面转向 AI agent infrastructure。他们宣称自己的沙箱启动时间低于 90ms。这个数字意味着什么意味着它比大多数 HTTP 请求的网络延迟还要快。紧接着Kubernetes 社区的 SIGSpecial Interest Group也发布了官方的agent-sandbox项目这意味着未来你可以在自己的 Kubernetes 集群里用kubectl apply -f agent-sandbox.yaml的方式一键部署一个生产级的 agent runtime。它天然支持 K8s 的所有能力自动扩缩容、滚动更新、服务网格集成、可观测性对接。更可怕的是这些开源项目正在快速形成自己的“生态位”。比如 ByteDance 的deer-flow它不仅仅是一个 runtime而是一个内置了“规划planning”和“子 agentsubagents”能力的完整 agent 框架。它在 GitHub 上已经获得了 59,000 个 star这意味着已经有数万名开发者在上面构建、分享、复用各种垂直领域的 agent。它不卖 runtime它卖的是“如何让 agent 更聪明”的最佳实践。这种由社区驱动的创新速度是任何一家商业公司都难以企及的。4.3 历史的镜像VMware 的兴衰启示录Anthropic 的工程博客把 Managed Agents 比作“90年代的操作系统虚拟化”这个类比非常精准但也非常危险。因为它指向了一个已经被历史反复验证过的结局。1999 年VMware 发明了 x86 平台上的商业虚拟化软件 ESX它一度是企业数据中心里最昂贵、最核心的软件之一售价高达数万美元每台服务器。它构建了一个价值千亿美金的帝国。但历史的车轮滚滚向前2003 年开源的 Xen 项目出现2007 年KVMKernel-based Virtual Machine被合并进 Linux 内核成为了 Linux 的“原生”虚拟化能力。到了 2020 年代当 AWS、GCP、Azure 这些云厂商把虚拟化能力作为云服务的“基础能力”免费提供时VMware 的商业模式就彻底变了。它不再是“卖虚拟化”而是“卖虚拟化之上的管理、迁移、安全工具”。它的收入依然可观但它已经不再是那个定义时代的“基础设施层”。Managed Agents正站在 VMware 2005 年的那个路口。它是一个高质量的、有架构远见的 proprietary runtime。但它面对的是 AWS、Google、Microsoft 这些已经把 runtime 当成“水电煤”的云巨头以及 Daytona、K8s SIG、deer-flow 这些正在用开源速度重塑规则的社区力量。历史的规律是当一个技术层被证明是“必要”的基础设施时它的经济价值就会被迅速压缩最终趋向于零。云厂商会把它打包进 IaaS/PaaS 的订阅费里开源社区会把它变成一个免费、可审计、可定制的公共品。留给 Anthropic 这样的纯 runtime 提供商的空间只会越来越窄。5. 价值迁移当 runtime 归零钱流向哪里既然 runtime 这一层注定要被“归零”那么整个 AI 工具链的价值必然会向上或向下迁移。向下是更底层的芯片、算力、模型训练向上则是那些建立在 runtime 之上的、更高阶的、更贴近业务价值的抽象层。这才是 Anthropic 发布 Managed Agents 之后真正值得所有从业者、创业者、投资人关注的焦点。5.1 追踪与可观测性Trace StoreAI 世界的“黑匣子”当 agent 的执行过程不再是一个黑盒而是一条条可查询、可分析的事件日志时“追踪”就从一个可选项变成了一个必选项。想象一下一个金融风控 agent因为一个微小的、未被发现的逻辑错误连续三天给高风险客户发放了低利率贷款。如果没有一个统一的、跨 runtime 的 trace store你可能永远找不到这个 bug 的根源——因为日志分散在不同的沙箱、不同的 harness、不同的 session 里。目前这个领域已经形成了三股主要力量公司/项目核心产品关键优势商业模式BraintrustBrainstore专为 AI 交互日志设计的 OLAP 数据库查询性能极佳$36M Series A商业化产品ArizePhoenixApache 2.0 开源旨在成为事实上的开源标准再在其上构建商业版$131M 总融资开源商业双轨LangChainLangSmith与 LangChain 生态深度绑定开箱即用安装基数巨大免费基础版 高级功能订阅它们的竞争不是比谁的 dashboard 更好看而是比谁的 trace format 更通用、谁的 SDK 更易集成、谁的存储引擎更能承受 PB 级别的日志洪流。谁能成为那个“所有 agent runtime 都愿意对接的、统一的系统记录”谁就拿到了通往下一阶段的门票。因为当 runtime 可以随时更换时你的 trace 数据就是你唯一无法被带走的、也是最有价值的资产。5.2 治理与策略Governance PolicyAI 时代的“防火墙”随着 agent 被赋予越来越多的权限——调用支付 API、读取 HR 系统、修改生产数据库——“这个 agent 被允许做什么”、“谁批准了这个权限”、“它的每一次操作是否有完整的审计链”这些问题已经从技术问题上升为合规和法律问题。OWASP开放网络应用安全项目发布的《Agentic Top 10》已经把“不安全的 agent 配置”、“越权的工具调用”列为最高风险。AWS 的 AgentCore 在 2026 年 3 月就将 Policy Controls 推向了 GA。这意味着你可以在 AWS 控制台里用图形化界面为一个 agent 设置细粒度的策略它只能调用特定的 Lambda 函数它调用 S3 的权限仅限于s3:GetObject且只能访问my-company-data-bucket下的public/前缀它不能在任何情况下将敏感 PII个人身份信息数据作为 tool call 的参数发送出去。这是一个全新的、巨大的市场空白。目前还没有一个公认的、跨云、跨 runtime 的治理标准。谁能率先定义一套被广泛接受的 Policy DSL领域特定语言并提供一套从策略编写、策略部署、策略执行到策略审计的完整闭环谁就能在这个“AI 时代的防火墙”市场里占据先发优势。这不再是写几行代码的事而是要深入理解金融、医疗、政府等不同行业的合规要求并将其翻译成机器可执行的规则。5.3 垂直领域市场Vertical Marketplaces从“工具”到“解决方案”最后也是最确定的一点是价值一定会流向那些能直接解决具体业务问题的“垂直 agent”。Salesforce 的 Agentforce 在 2026 年 Q4 达到了 8 亿美元的 ARR年度经常性收入同比增长 169%。这个数字说明了一件事企业客户不在乎你用的是 Claude 还是 Llama不在乎你的 runtime 是 Anthropic 的还是 AWS 的。他们在乎的是“这个 agent 能不能帮我把销售线索的转化率提高 15%”、“能不能把客服工单的首次解决率提升到 90%”、“能不能在 5 分钟内给我生成一份符合 SEC 要求的季度财报摘要”开源社区已经敏锐地捕捉到了这个趋势。virattt/ai-hedge-fund是一个面向量化交易的开源 agent它能自动分析财经新闻、爬取上市公司财报、执行回测、并生成交易信号。vxcontrol/pentagi则是一个面向网络安全的渗透测试 agent它能自动扫描漏洞、模拟攻击路径、并生成修复建议。这些项目都不是在造轮子而是在用 agent 的新范式重构一个旧行业的工作流。个人体会我在和一家大型保险公司聊合作时他们的 CTO 一句话让我印象深刻“我们不买 AI我们买‘降低理赔欺诈率’。你们的 agent如果能证明它能把我们的欺诈识别准确率从 72% 提升到 85%并且这个效果是可审计、可复现的我们就签单。至于它跑在谁的 runtime 上那是你们的采购部门该操心的事。” 这句话精准地概括了价值迁移的终点当基础设施层 commoditize商品化之后价值就必然回归到“解决了什么问题”这个最朴素的原点上。Anthropic 的 Managed Agents是一个优秀的、及时的、防御性的产品。但真正激动人心的故事不在它身上而在它之上在那些正用它来建造一座座垂直领域“摩天大楼”的 builders 身上。