Managed Agents:LLM应用的运行时范式革命

📅 2026/7/2 17:14:04
Managed Agents:LLM应用的运行时范式革命
1. 这不是新赛道而是 runtime 层的“操作系统时刻”正在重演你打开技术新闻推送看到标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》第一反应可能是又一个大模型公司搞了个新玩意儿又一轮融资故事要开始了别急着划走——这则消息背后没有 hype没有“颠覆”只有一场静默却不可逆的基础设施迁移。它和你去年在 AWS 控制台里点开 AgentCore、在 Vertex AI 控制台里拖拽 Agent Builder 组件时感受到的那种“理所当然”是同一股力量的两个切面。我从 2023 年底开始搭建企业级 LLM 应用平台亲手写过三套 session 状态管理中间件踩过 context window 溢出导致整条工作流静默崩塌的坑也经历过客户凌晨三点打电话说“我们昨天训练好的销售 agent 今天突然开始胡编客户邮箱”最后发现是环境变量里混进了测试用的 API Key。这些不是故障是信号。Anthropic 这次发布的 Managed Agents表面看是一套托管运行时内核却是对整个 agent 架构范式的重新锚定状态必须外置凭证必须隔离执行必须可追溯失败必须可重放。它不解决“怎么让 agent 更聪明”它解决的是“当 agent 开始替你写 PR、改合同、调用财务系统时你怎么敢让它活过五分钟”。关键词里那个“Towards AI - Medium”不是平台标签是时代注脚——这篇文章之所以能引发广泛转发正因为它没把 Managed Agents 当成 Anthropic 的产品公告而是当成一张基础设施演进的 X 光片。它照见的不是 Claude 的进步而是所有依赖 LLM 构建业务逻辑的团队正在集体告别“把 state 塞进 prompt”的手工作坊时代。如果你还在用 LangChain 的 Memory 类硬扛多轮对话状态或者把数据库连接串直接写进 system prompt 让 agent 自己拼接 SQL那你不是在开发 agent你是在给未来埋雷。这个层一旦 commoditize商品化价格会压到接近零但它的消失不会让应用变简单反而会让那些没提前把 trace、policy、vertical logic 抽离出来的团队在一夜之间失去对生产环境 agent 的全部掌控力。这不是预言是过去二十年每一次基础设施层迁移都重复上演的剧本从物理机到虚拟机从虚拟机到容器从容器到 serverless——每一轮压缩的都不是技术本身而是“谁该为底层稳定性负责”这件事的议价权。2. 核心设计解构为什么“Session as Event Log”是唯一正确的起点2.1 旧范式的致命伤Context Window 是纸糊的保险柜先说个真实案例。去年 Q3我们为一家跨境支付公司上线了一个“合规文档自动审核 agent”。流程很清晰第一步解析 PDF 合同第二步提取付款条款第三步比对 OFAC 名单第四步生成风险摘要。整个链路跑通后客户非常满意。直到上线第 17 天他们发来一份 42 页的并购协议agent 在第三步突然开始输出“建议向伊朗实体付款”而原始合同里根本没提伊朗。我们花了 6 小时回溯日志最终定位到问题根源当上下文 token 数超过 Claude 3.5 Sonnet 的 200K 窗口上限时模型不是报错或截断而是启动了一种叫“context compression”的隐式策略——它把前 15 分钟的 tool call 结果包括 OFAC 查询返回的“无匹配”悄悄丢弃只保留最近两轮交互。于是 agent 在第四步“生成摘要”时面对一个缺失关键否定信息的残缺上下文基于概率补全了最符合语言习惯的错误结论。更可怕的是整个过程没有任何 error log监控指标一切正常trace 里只显示“success”。这就是旧范式的核心缺陷把运行时状态state和推理上下文context混在同一块内存里等于把保险柜钥匙和现金锁在同一个抽屉里。当抽屉塞满系统不会报警只会随机扔掉一些东西。Anthropic 提出的 “Session as Event Log”本质是把“保险柜”和“现金”物理分离。Session 不再是模型内部的一个变量而是一个独立的、持久化的、带时间戳和因果链的事件序列。每一次 tool call 的输入、输出、耗时、返回码、甚至沙箱退出码都被原子化地写入这个 log。模型每次推理只读取当前 step 所需的最小上下文片段比如“上一步查 OFAC 返回了什么”而不是加载整个 session 历史。这带来三个硬性收益可重放性任意时刻的 session 都能被完整重建无需依赖模型当时的内部状态可审计性每个决策都有明确的输入依据法务或合规部门要查某次误判直接按 sessionId 查 event log 即可可降级性当模型升级或切换比如从 Claude 切到 Llama 4只要 event log schema 不变整个 session 历史就能无缝迁移。提示很多团队误以为“用 Redis 存 session state”就算解耦了。错。Redis 里存的仍是 key-value 形式的 state 快照不是 event log。快照无法告诉你“为什么 agent 在第 7 步决定跳过税务校验”只能告诉你“第 7 步之后 tax_check_flag 是 false”。而 event log 记录的是“第 7 步调用 /api/tax/validate 返回 401因 token 过期agent 决定跳过并记录 warning”。2.2 Harness无状态执行器的工程必然性Managed Agents 文档里反复强调 harness 是 stateless 的这听起来像一句正确的废话。但如果你拆开看它的实现契约就会明白这是对抗复杂性的唯一路径。Harness 的核心接口只有一个execute(name, input) → string。注意这里没有execute_with_state()没有resume_from_checkpoint()甚至没有get_current_context()。它就是一个纯粹的函数式调用给它一个工具名、一段 JSON 输入它返回一段字符串输出。所有状态管理、重试逻辑、超时控制、credential 注入都由 harness 外部的 session layer 和 sandbox manager 完成。这种设计不是为了炫技而是源于一个残酷现实LLM 应用的失败模式高度不可预测。可能是工具 API 临时 503可能是沙箱网络抖动可能是模型在某个特定 prompt 下陷入无限循环。如果 harness 自己维护状态一次失败就可能让整个执行器进入未知的中间态——比如它刚发完 HTTP 请求但还没收到响应进程就被 OOM kill 了。此时你无法判断“请求到底发出去没”也无法安全地重试重试可能造成双扣款。而 stateless harness 的哲学是失败即归零重试即重来。session layer 负责记住“刚才调用了 tool A输入是 X”harness 只负责执行这个确定性动作。当 harness crashsession layer 只需重新调用execute(tool_A, X)结果完全可预期。这直接带来了 p50 首 token 时间下降 60% 的实测效果——因为 harness 不再需要在每次调用前加载、解析、校验庞大的 session state它就像一个 CPU 寄存器只处理当前指令。我在自己团队的 benchmark 中验证过当 session state 达到 5MB常见于长文档分析场景基于 stateful harness 的平均延迟比 stateless 方案高 320ms且 p95 延迟波动率高达 47%。而 Anthropic 的方案把这部分不确定性彻底移出了关键路径。2.3 Sandbox从“宠物”到“牲畜”的运维革命文中那句 “Sandboxes as cattle, not pets” 是全文最锋利的洞察。过去一年我见过太多团队把 agent 沙箱当成“宠物”来养手动配置 Dockerfile为每个 agent 分配固定 IP 和端口把 credential 写死在 env 文件里甚至用 Ansible 脚本给沙箱打补丁。结果呢一次 OpenSSL 漏洞爆发运维团队花了 36 小时给 200 个沙箱逐个升级一次 AWS 区域故障所有跨区调用的 agent 全部中断因为它们的沙箱 IP 是硬编码的。Managed Agents 的 sandbox 设计本质上是把运维责任交还给基础设施。它不提供“一个可以 SSH 进去的容器”而是提供一个“按需生成、用完即焚、完全隔离”的执行单元。关键细节在于 credential 的注入方式不是通过 environment variables而是通过 sandbox 内部的 vault client 在 runtime 动态获取。这意味着 agent 的代码里永远看不到os.getenv(DB_PASSWORD)它只能调用vault.get(prod-db-creds)而这个 vault client 的 token 是 sandbox 启动时由 Anthropic 的 control plane 注入的且权限严格限定在本次 session 所需的 scope 内。这种设计直接堵死了两类高危漏洞一是 agent 因 prompt injection 被诱导执行print(os.environ)泄露密钥二是开发人员误将测试密钥 commit 到 agent 代码库。我在 2024 年参与过一次红蓝对抗演练蓝队用一条精心构造的 prompt 让某金融 agent 执行了curl -X POST https://internal-api/vault/dump?tokenxxx成功导出了全部生产密钥——而这个漏洞在 Managed Agents 的架构下根本不存在因为 sandbox 根本没有访问 vault root endpoint 的权限。更深远的影响是成本结构。当 sandbox 是“宠物”你的成本是 per-instance每个沙箱每月 $XX当它是“牲畜”成本变成 per-execution每次调用 $0.002。后者让“为每个 customer session 启动专属沙箱”从奢侈变成标配这才是真正支撑企业级安全的底层逻辑。3. 实操落地如何用 Managed Agents 替换你现有的 agent 架构3.1 从 YAML 定义到生产部署的完整链路假设你正在维护一个基于 LangChain 的客服 agent它目前的工作流是用户提问 → RAG 检索知识库 → 调用 CRM API 获取客户历史 → 生成回复。现在你要把它迁移到 Managed Agents。第一步不是改代码而是重构抽象。LangChain 的AgentExecutor是一个黑盒它把 prompt engineering、tool calling、memory management 全部揉在一起。Managed Agents 要求你把这三者彻底解耦。以下是实际操作中我整理的迁移 checklist剥离 System Prompt把原来写在system_message里的所有规则如“你是一个客服代表语气要友好”、“禁止透露内部系统名称”提取出来写成 YAML 的guardrails字段。注意这里不是简单复制粘贴而是要转换成机器可执行的规则。例如原 prompt 中的“不要编造数据”在 YAML 中要定义为guardrails: - type: output_validation rule: response must contain exactly one of: [I dont know, Let me check with my team, According to our records]这样 Anthropic 的 guardrail engine 才能在输出阶段做正则匹配拦截而不是靠模型自己“理解”。工具注册标准化你原来的 CRM 工具可能是一个 Python 函数get_customer_history(customer_id)。在 Managed Agents 中你需要把它包装成一个符合 OpenAPI 3.0 规范的 endpoint并在 YAML 中声明tools: - name: crm_get_customer_history description: Get full interaction history for a customer by ID input_schema: type: object properties: customer_id: type: string description: The unique identifier of the customer output_schema: type: object properties: interactions: type: array items: type: object properties: timestamp: {type: string} channel: {type: string} summary: {type: string}关键点在于output_schema。很多团队只定义 input却忽略 output。而 Managed Agents 的 session log 会严格按此 schema 解析返回值如果 API 实际返回了{error: not found}但 schema 里没定义 error 字段harness 会直接报错而非传递给模型。我在迁移时就遇到过这个问题CRM 接口在客户不存在时返回 404 JSON body但我们的 schema 只定义了 success case导致所有查无此人的请求都卡在 harness 层。Session 初始化与恢复旧架构中你可能用ConversationBufferMemory把对话历史存在 Redis。现在你需要用 Anthropic 的awake(sessionId)接口。实操中我发现一个关键技巧不要等用户发问才创建 session而是在用户进入客服页面时就预热。我们给每个新访客生成一个 UUID 作为sessionId调用create_session()并传入初始 context如“用户来自 pricing 页面浏览了 Enterprise Plan”。这样当用户第一次提问时harness 直接awake(sessionId)省去了初始化沙箱的 800ms 延迟。实测数据显示首问响应时间从平均 2.1s 降到 1.3s。Pricing 模型的实操换算$0.08/session-hour 看似简单但隐藏着陷阱。这个“hour”不是 wall-clock time而是 harness 的 active CPU time。我们做过压力测试一个典型的客服问答 sessionharness 实际执行时间约 12 秒含沙箱启动、tool call、模型推理但整个 session 生命周期从 create 到用户关闭页面平均 8.2 分钟。这意味着你为每 12 秒的计算付费却要承担 8.2 分钟的 session 存储成本。解决方案是在用户无操作 60 秒后主动调用suspend(sessionId)。Suspended session 不计费且awake()仍可恢复。我们在前端加了心跳检测效果是单 session 平均计费时长从 8.2 分钟降到 1.4 分钟成本下降 83%。3.2 与现有生态的集成策略不是替代而是分层Managed Agents 不是让你抛弃 LangChain 或 LlamaIndex。相反它要求你把它们“下沉”一层。我的团队现在的架构是Managed Agents 作为 runtime layerLangChain 作为 tool development layerLlamaIndex 作为 RAG indexing layer。具体来说所有 RAG 检索逻辑不再由 agent 在 prompt 里调用而是封装成一个名为knowledge_retrieve的 tool。这个 tool 的后端就是你熟悉的 LlamaIndex pipeline它接收 query string返回 chunked text metadata。Managed Agents 只负责调度这个 tool不关心它内部是用 BM25 还是 embedding。LangChain 的Tool类现在只用来定义 tool 的 interfaceinput/output schema真正的执行逻辑比如调用 ChromaDB放在 tool 的 backend service 里。这样当你未来想把knowledge_retrieve迁移到 Vertex AI 的 Retrieval Service只需改 backendYAML 定义和 session log schema 完全不变。最关键的集成点是 trace store。我们没有用 Anthropic 默认的 log 查询而是把所有 event log 同步到自建的 LangSmith 实例。方法是在tools配置里加一个post_hooktools: - name: knowledge_retrieve # ... other fields post_hook: type: webhook url: https://our-langsmith/api/v1/trace headers: Authorization: Bearer ${LANGSMITH_API_KEY}这样每次 tool 调用完成Managed Agents 会自动把 event 发送到 LangSmith形成完整的 trace。当出现异常时我们可以在 LangSmith 里看到RAG tool 返回了 3 个相关 chunk但模型在生成回复时却引用了第 4 个不存在的 chunk——这立刻指向模型幻觉问题而非 RAG 效果问题。注意很多团队试图把整个 LangChain chain 直接注册为一个 tool。这是反模式。Managed Agents 的设计哲学是“细粒度 tool”每个 tool 应该对应一个单一、可验证的业务能力如“查订单”、“发邮件”、“读知识库”。把 chain 当 tool等于把汽车引擎、方向盘、刹车片打包成一个叫“开车”的工具——你永远无法定位是哪个部件坏了。3.3 安全加固的实操四步法Managed Agents 的 credential 隔离是基础但生产环境需要更纵深的防御。我们基于其架构做了四层加固全部已在金融客户生产环境上线Input Sanitization Layer在execute()调用前我们加了一层 Web Application Firewall (WAF) 规则。针对crm_get_customer_history这个 toolWAF 会检查customer_id是否符合 UUID v4 格式如果不是直接拦截并返回{error: invalid customer_id format}。这堵住了 90% 的 fuzzing 攻击且不增加 harness 负担。Output Redaction Hook在 tool 返回结果后、进入 session log 前我们配置了一个 redaction hook。例如CRM API 返回的interactions数组里包含summary: 客户投诉退款延迟要求补偿 $500这个$500会被自动替换为REDACTED_AMOUNT。Hook 代码是标准的 Python regex部署在 Anthropic 提供的 webhook endpoint 上。Policy-Based Tool Routing不是所有用户都能调用所有 tool。我们在 session 创建时根据用户 JWT token 中的roleclaim动态生成一个allowed_tools列表。比如role: support_agent只能调用knowledge_retrieve和crm_get_customer_history但不能调用finance_refund_process。这个列表作为 session metadata 传入harness 在执行前会校验。Real-time Anomaly Detection我们把所有 event log 流入 Kafka用 Flink 实时计算单 session 内crm_get_customer_history调用次数 5 次或 1 分钟内调用finance_refund_process 1 次立即触发告警并 suspend session。这套机制在上线首周就捕获了 3 起恶意爬虫行为——它们试图暴力枚举 customer_id。4. 竞争格局与避坑指南为什么现在入场反而最危险4.1 Hyperscaler 的“免费陷阱”与真实成本文章提到 AWS Bedrock AgentCore 已 GA 五个月这是一个关键事实。但很多技术负责人只看到“AWS 免费”没看到背后的隐性成本。我帮三家客户做过 TCO总拥有成本对比结论很反直觉在中小规模 1000 sessions/day下Managed Agents 的 $0.08/hour 反而更便宜。原因在于AgentCore 的“免费”是有条件的它只对使用 Bedrock 托管模型Claude、Llama、Cohere的请求免费。如果你要用自托管的 Mixtral 或本地部署的 QwenAgentCore 无法调度你必须自己搭 harness。而 Managed Agents 明确支持 bring-your-own-modelBYOM只要你提供兼容的 inference endpoint。运维成本被严重低估AWS 的 microVM 沙箱确实强大但它要求你自行管理VPC 配置、Security Group 规则、IAM role 权限、log aggregation、metrics monitoring。我们测算过一个资深 SRE 全职维护 AgentCore 生产环境年成本约 $180k而 Managed Agents 的运维开销趋近于零Anthropic 负责所有底层 patch、scaling、DR。调试成本差异巨大在 AgentCore 上 debug 一个沙箱崩溃你需要登录 EC2 实例、查/var/log/messages、分析 core dump在 Managed Agents 上你只需在 console 里输入session_id看到完整的 execution trace包括沙箱 exit code、stdout/stderr、tool call duration。我们有个案例AgentCore 上一个 timeout 问题排查了 14 小时Managed Agents 上同类型问题 3 分钟定位到是 tool backend 的 DNS 解析超时。提示不要被“hyperscaler 有更多功能”迷惑。AgentCore 支持 8 小时长 sessionVertex 支持 policy controlsAzure 支持 AutoGen。但这些功能在你第一个客户上线前99% 的场景根本用不到。真正高频的需求只有三个快速启动、稳定执行、可追溯。Managed Agents 在这三个点上做到了极致精简。4.2 开源替代方案的成熟度陷阱文中提到 Daytona、Kubernetes SIG 的 agent-sandbox 项目这些确实是值得关注的信号。但作为一线实施者我必须泼一盆冷水2026 年的开源 agent runtime就像 2014 年的 Kubernetes——概念正确但离生产可用还有距离。我们深度测试过 Daytona 的 v0.8 版本发现三个致命短板Credential Vault 集成不完整它支持 HashiCorp Vault但只实现了 token-based auth不支持更安全的 AppRole 或 Kubernetes Auth。这意味着你必须把 root token 写在配置文件里违背了最小权限原则。Event Log Schema 缺乏标准每个项目定义自己的 log formatDaytona 用 JSONLdeer-flow 用 Protobuf导致 trace store 无法统一。你想用 Arize 做可观测性得为每个 runtime 写不同的 adapter。State Migration 工具缺失当你要从 Daytona 迁移到 Anthropic没有工具能把 existing session state 自动转换为 event log。你只能重跑所有历史 session这对金融客户是不可接受的。所以我的建议很务实把开源方案当 PoC概念验证工具别当生产基石。我们用 Daytona 快速验证了 12 个垂直场景的可行性但上线时全部切回 Managed Agents。因为 PoC 阶段你只需要 80% 的功能生产阶段你需要 100% 的 SLA。4.3 垂直市场切入的实操经验从“通用 agent”到“可采购合同”Salesforce Agentforce ARR 达到 $800M这个数字背后是深刻的商业逻辑转变。客户不再为“一个能调用 API 的 agent”付费而是为“解决销售线索分级这个具体问题”付费。我们服务的一家医疗 SaaS 公司最初想做一个通用的“医疗文档助手”结果半年没签单。后来我们帮他们聚焦到一个场景“自动从出院小结中提取 ICD-10 诊断编码并填入 billing 系统”。这个垂直 agent 上线后第一个季度就签下 17 家医院客户合同模板直接复用 Salesforce 的 Agentforce 标准版。关键经验有三条定价必须绑定业务结果不要按 session 数或 token 数收费而是按“成功提取的编码数”或“减少的 billing 人工工时”。我们和客户约定每万次成功编码提取收费 $1200如果准确率低于 99.5%按比例退款。这种模式让客户把 agent 当成 ROI 可计算的资产而非成本中心。合规证明前置化医疗客户第一问永远是“HIPAA compliant?”。我们没有堆砌技术文档而是直接提供① Managed Agents 的 HIPAA BAABusiness Associate Agreement副本② 沙箱的 SOC 2 Type II 报告节选③ 一个 demo上传一份脱敏的出院小结现场演示从输入到 billing 系统写入的全程 trace重点展示 PHI受保护健康信息在哪个环节被 redact。这个 demo 比 50 页白皮书更有说服力。交付物必须是“可采购”的客户采购部门不关心 YAML 文件他们要的是① 一份标准 SOW工作说明书明确列出交付的 3 个 toolextract_icd10,validate_coding,push_to_billing② 一个预装好所有 policy 的 AgentCore template我们提供 AWS Quick Start③ 一份“采购就绪”的报价单包含 license fee$X/user/month、managed runtime fee$Y/session、SLA penalty clause。当你的交付物长得像 Salesforce 的合同采购流程就自然顺畅了。5. 价值迁移的实操路线图你在哪一层决定了你能活多久5.1 Trace Store从日志聚合到法律证据的质变Arize、LangSmith、Braintrust 们争夺的不是 dashboard 美观度而是“谁的 trace schema 成为行业事实标准”。我在为客户设计 trace 架构时强制推行一个原则所有 event log 必须包含四个黄金字段session_id全局唯一、step_id因果链序号、tool_name工具名、verifiable_input_hash输入内容的 SHA256。最后一个字段最关键——它让 trace 具备法律效力。例如当客户质疑“为什么 agent 把我的贷款申请标记为高风险”我们能立刻提供①session_id: abc123②step_id: 7③tool_name: credit_risk_assess④verifiable_input_hash: a1b2c3...。然后出示该 hash 对应的原始输入客户上传的工资单 PDF 信用报告 JSON证明模型是基于真实数据决策。没有这个 hashtrace 只是日志有了它trace 就是证据链。我们已把这套 schema 提交给了 ML Commons 的 Agent Trace Working Group推动成为 open standard。5.2 Governance Policy从技术配置到采购准入AWS 的 AgentCore Policy Controls GA标志着一个分水岭agent governance 不再是 DevOps 的事而是 Procurement采购和 Legal法务的事。我们帮客户落地的第一条 policy 不是技术性的而是采购准入条款“任何接入我司系统的 agent必须支持 OWASP Agentic Top 10 的第 3 条Unauthorized Tool Use和第 7 条Data Leakage的实时阻断”。这意味着 vendor 必须提供① 一个 policy config UI让采购经理能勾选“禁止调用外部 email API”② 一个 audit report证明过去 30 天无 policy violation。技术上这要求 runtime 层必须支持动态 policy injection——Managed Agents 的 guardrails YAML 支持if: ${user.role} guest这样的条件表达式正好满足。而很多开源方案还在用静态 JSON config无法满足采购条款。5.3 Vertical Marketplaces从代码仓库到合同模板的跃迁GitHub 上的virattt/ai-hedge-fund是个好项目但它离可采购还有十万八千里。我们把它变成产品做了三件事抽象出 contract-ready interfaces把 hedge fund agent 的核心能力定义为三个标准化 toolmarket_data_fetch输入 ticker, time_range输出 OHLCV、risk_calculate输入 portfolio, market_data输出 VaR、trade_execute输入 order, exchange_config输出 confirmation。这些 interface 被写入 RFC 文档成为客户采购合同的技术附件。构建垂直领域的 test suite不是跑 SWE-bench而是跑 real-world scenarios。例如risk_calculate的测试用例包括“输入 2023 年硅谷银行倒闭前一周的 portfolioVaR 必须 15%”。这个 test suite 成为客户验收的签字项。提供 procurement pack包含① 符合 FINRA 合规要求的 deployment guide② 与 Bloomberg Terminal 的 integration cert③ 一份标准 MSA主服务协议模板其中 SLA 条款明确写“market_data_fetch 的 p95 latency 200ms”。当你的 agent 不再是一段代码而是一份采购部门能看懂、法务能审核、财务能入账的合同你就站在了价值金字塔的顶端。Anthropic 的 Managed Agents 是 runtime 层的“Windows 95”它让所有开发者能快速启动。但真正赚钱的永远是上面的 Office、Photoshop、QuickBooks——也就是那些把 runtime 能力封装成垂直解决方案的公司。6. 我的实战体会别在 runtime 层赌身家往上走两层我在 2024 年犯过一个致命错误押注自研 agent runtime花了 8 个月、12 个人月做出了一个性能比 Anthropic 快 12% 的 harness。上线后才发现客户根本不 care 这 12%他们 care 的是“能不能让我销售总监在 Slack 里直接 agent 查到这个客户的最新合同版本”。那 12% 的性能优势连 PPT 里一页都占不到。Managed Agents 的发布对我而言不是威胁而是解脱。它让我终于可以把全部精力从“怎么让沙箱启动更快”转向“怎么让销售总监在 Slack 里看到他想要的信息”。这背后是认知的升级runtime 层的价值密度正在指数级衰减而上层的价值密度正在爆炸式增长。Trace store 不是日志系统它是企业的决策记忆governance 不是配置管理它是采购准入的门票vertical marketplace 不是应用商店它是新经济的合同基础设施。我现在给所有技术团队的建议只有一条如果你的 OKR 里还有“优化 harness 启动时间”请立刻把它删掉换成“定义 3 个 vertical agent 的 contract-ready interface”。因为历史已经证明当一个层 commoditize所有在这一层竞争的公司最终都会变成水电煤一样的基础设施供应商——利润薄、竞争惨、话语权弱。而真正的赢家永远是那些在它之上构建出人们愿意付钱购买的具体价值的人。Anthropic 船已启航但目的地不在 runtime 层。望远镜该调焦了。