从原型到上线的 Agent:哪段可以 Vibe,哪段必须 Engineer?

📅 2026/6/27 6:52:02
从原型到上线的 Agent:哪段可以 Vibe,哪段必须 Engineer?
先把概念切一刀Vibe Coding ≠ “用 AI 写代码”Andrej Karpathy 2025 年 2 月 2 日那条原推的定义是“完全沉浸在氛围里拥抱指数级进步忘记代码本身的存在……我 ‘Accept All’ 从不读 diff报错信息直接贴回去通常就好了。” 注意这里的关键动作是不读代码、不审 diff、靠跑通与否反馈——这才是原教旨 vibe coding。字节跳动洪定坤后来提了个重要区分用自然语言写代码≠ vibe coding。前者是你用自然语言精确描述编码逻辑和方案生成完仍然 review、仍然能随时接管后者才是点按钮、提需求、跟着感觉走。讨论 agent 开发前先把这刀切了否则后面全是鸡同鸭讲。Agent 开发遇上 Vibe放大了爽感也放大了坑Agent 项目无论你是撸 LangGraph / Crew / 自研 loop有几个天然属性脚手架高度模板化agent loop、tool schema、retriever wrapper、vector store 对接——这些 AI 写得飞起Cursor/Claude Code 一把梭。非确定性内建同一段 prompt跑两次路径不同“能跑不等于对”。状态与上下文长多跳推理 工具返回 中间态上下文轻松破十万 token。隐性成本点多LLM 调用费用、tool 调用超时重试、agent 自循环卡死、eval 覆盖。这几个属性和 vibe coding 的不读代码、靠运行反馈组合在一起爽点和雷点都被放大 放大了的爽点原型阶段 vibe 出来一个多工具 agent对个人开发者是小时级的事。以前你要读 LangChain 文档、对着 TypeScript 类型定义调 tool schema现在我要一个能搜网页算价格的 ReAct agent用 GPT-5内存用 Redis——三句 prompt 跑起来。Karpathy 说的 “see stuff, say stuff, run stuff” 在 agent 脚手架层是真的香。 放大了的坑坑也比普通脚本深原因三条能跑的欺骗性更强。普通脚本跑通 大概率逻辑对agent 跑通 可能只是这次 LLM 没抽风。vibe 态度下你不会去写 eval、不会去测 tool 边界上线后一周才炸。三阶段衰退曲线在 agent 项目里来得更快。Node.js 那场 1.9 万行 PR 争议里总结过前期 AI 爆发、中期耦合上来人类成本追平、后期长上下文指令遵循断崖。Agent 项目因为本身上下文就长、状态就多很多项目在 0.5→0.8 这段就提前进崩溃期——不是功能加不动是 agent 开始错的地方没改对对的地方改错了。Debug 链路断裂。传统 bug 你读栈agent bug 你得反过来追“为什么 LLM 这轮选了 tool B 而不是 Aprompt 哪句歧义了memory 里哪条历史带偏了”——vibe 模式下你不读代码连追都追不动只能随机改 prompt 直到它好像好了Karpathy 原推自嘲的那句 “ask for random changes until it goes away” 在 agent 场景是直接命门。那 1.9 万行 PR 争议对 agent 开发者意味着什么2026 年初 Matteo Collina 用 Claude Code 搓出 Node.js 内置 VFS 的 1.9 万行 PRFedor Indutny 牵头请愿要求禁止 LLM 重写核心模块Kyle Simpson、Andrew Kelley 实名签——这事表面是开源政治底下戳中一个更通用的痛点生成成本趋零review 成本仍线性。按每行 2 分钟算1.9 万行 90 个工作日。放到 agent 开发里这个比值更夸张agent 项目里生成的不只是代码还有 prompt、tool 定义、eval case、路由规则——每样都可能由 AI 吐出来。如果团队全员 vibe、无人收口reviewer 不是在审代码是在替你的 token 买单。怎么评价给一个不那么骑墙的判断Vibe coding 下的 AI agent 开发我的判断是三句话Vibe coding 把 agent 从 0 到 0.5 压缩到小时级但 agent 从 0.5 到 1 那段可观测、eval、成本管控、tool 边界、回滚比非 agent 项目更需要硬工程纪律而不是更不需要。拆成场景更清楚场景vibe coding 合适度理由个人 agent 玩具 / 周末项目✅ 全场 vibe炸了也无所谓爽到就行内部工具 PoC / 产品原型✅ vibe 起步但要留重写预案别直接进生产面向用户的 agent 功能⚠️ vibe 生成 Real Engineering 收口prompt/tool/eval 必须有人审observability 必须有金融/医疗/关键设施 agent❌ 纯 vibe 禁入要 multi-agent review 灰度 回滚这个表里面向用户的 agent那一档是多数人实际在的位置——也是 vibe coding 最容易翻车的位置。Apple 那边对 AI 生成 App 的态度已经很明确AI 写的不是质量问题的免责声明agent 上架同理。真正剩下的东西2026 年这场争论打到后面真正浮出来的是一件事AI 把写 agent门槛干到极低之后agent 工程师的核心价值不再是能不能让 LLM 吐出一段 loop而是这段 agent 该不该进生产、该不该被长期维护、cost/latency/eval 能不能兜住。所以评价 vibe coding 下的 agent 开发结论不是爽还是坑而是原型段vibe 万岁不 vibe 才是浪费 AI。生产段agent 的非确定性决定了它比普通项目更不能跟着感觉走——tool schema 要审、eval 要覆盖、cost guard 要上、trace 要能反查。这一段恰恰是 2026 年多数agent 创业项目死掉的原因能 demo 不能上线。护城河知道什么时候 vibe、什么时候 engineer、哪段 prompt 必须锁版本、哪个 tool 边界必须人工测——这个判断力模型换十代也不会贬值。