AI 提速 3 倍,交付反而慢了?

📅 2026/6/30 7:03:50
AI 提速 3 倍,交付反而慢了?
—— 阿明餐厅代码量暴涨但价值下滑的复盘阿明餐厅·续集 19一、开场老板阿明的AI 革命 2.02026 年下半年阿明的餐厅连锁开到第 80 家。续集 18 那场AI 写代码翻车的复盘会后阿明做了 3 个决定AI 协作工程师 Harness 工程责任不可下放。现在他想看看AI 革命的真实收益。季度汇报会上研发负责人小王兴奋地展示数据指标6 个月前现在提升代码提交量1.2 万行/月3.8 万行/月 217%采纳的 AI 代码03.2 万行/月——AI 代码采纳率——84%——新功能上线数8 个/月14 个/月75%Token 月成本$0$8.5 万新增老板阿明看完数据拍桌子“再招 5 个 AI 协作厨师Cursor Claude Code明年开到 200 家”阿明的厨房类比开篇场景上面这张表就像阿明的厨房数据 —— “新菜数暴涨从 8 道/月到 14 道/月但差评数也跟着暴涨从 8 条/月到 23 条/月。阿明只看到新菜多了”代码量暴涨但没看到顾客投诉多了事故 差评。这是典型的厨房效率悖论 —— 出餐速度提升但顾客满意度反而下降。小王欲言又止但被 CEO 的兴奋打断了。二、第一幕6 个月后账单来了到了年底盘点技术总监老张拿出另一份数据——质量与运营指标指标6 个月前现在变化生产 bug 数12/月58/月❌ 383%P0 事故数0/月2/月❌ 200%客户投诉系统类8/月23/月❌ 188%工程师平均加班35 小时/月62 小时/月❌ 77%工程师离职率8%/年22%/年❌ 175%月度云成本$4 万$15 万❌ 275%Token 云 总成本$4 万$23.5 万❌ 488%阿明傻眼了“新菜数涨了 3 倍差评数也涨了 5 倍成本涨了快 5 倍——这到底是怎么回事”阿明的厨房类比第一幕把代码量换成菜品数“Bug换成差评”这张表就一目了然 —— 阿明的厨房从每天 8 道新菜手工研制“变成每天 14 道新菜AI 协助”但差评从每月 8 条涨到 23 条。这就是 AI 时代的厨房效率悖论 —— 出餐快了但顾客投诉也多了。三、第二幕老张用数据复盘老张拿出了 Waydev、GitClear、Faros AI、Jellyfish 等 4 大研究的最新数据开始逐项拆解。他把每个数据都翻译成厨房场景让阿明秒懂。三、第二幕老张用数据复盘老张拿出了 Waydev、GitClear、Faros AI、Jellyfish 等 4 大研究的最新数据开始逐项拆解。数据 1Waydev——“采纳率 ≠ 有效率”AI 代码采纳率84%看着很美 但 6 周后这些代码还在吗 ┌──────────────────────────────────────────┐ │ 80-90% 采纳率 → 6 周后只剩 10-30% 留存 │ │ │ │ 这就是代码流失Code Churn—— AI 代码 │ │ 被采纳、被修改、被重写、被删除最终没留下 │ │ 任何有效价值 │ └──────────────────────────────────────────┘老张解释“我们 84% 的采纳率看似很高但6 周后真正留在生产环境的 AI 代码可能只有 20-30%——其余的不是被改就是被删相当于做了无用功。”数据 2GitClear——“AI 代码修改率 9.4 倍”非 AI 时代的代码平均 2 周内被修改 1 次 AI 时代的代码 平均 2 周内被修改 9.4 次 意味着 ✅ 工程师短期内提交得快 ❌ 但代码稳定得慢bug 更多、技术债更深老张苦笑“团队感觉’产出多了’其实是修改次数多了不是有效产出多了。”数据 3Faros AI——“代码变更率 861%”PR 数861% 这意味着工程师疲于应付 PR review → review 质量下降 → 漏掉的 bug 上升 → 线上事故率上升数据 4Jellyfish——“吞吐量 2 倍Token 10 倍”吞吐量commit 数200% Token 成本 1000% 投入产出比 1 个工程师的成本 工资 Token 订阅 AI 时代的边际成本反而上升了老张算了一笔账“智能灶订阅费 食材成本 厨师加班费 离职补偿金AI 时代的总成本可能比 AI 之前还高 30%。”厨房类比老张换算给阿明听 ——“老板1 个 AI 协作厨师的月成本 工资2 万 AI 订阅3000 智能灶5000 食材浪费8000 3.6 万/月比传统厨师贵 80%。但产出只提升了 50%。边际成本反而上升了。”四、第三幕3 大真相老张在白板上画了 3 个真相。每个真相都用厨房场景翻译真相 1AI 是放大器不是替代品DORA 2025DORA 2025 报告核心结论“AI 是放大器放大组织已有的优势和劣势。”厨房类比AI 不是新厨师而是新厨房设备智能灶、自动翻炒机。好厨师 智能灶 → 大厨级别米其林出品烂厨师 智能灶 →更快地做出烂菜1 小时出 100 道糊了的菜。好的团队 AI → 更好出品稳定、研发新菜快烂的团队 AI → 更烂出品失控、差评暴涨阿明的厨房在没有Harness标准化操作手册、没有试菜流程review的情况下用 AI 设备 →放大的是烂真相 2初级 vs 资深工程师的鸿沟资深工程师用 AI - 知道 AI 写的代码哪里需要 review - 知道哪些是陷阱、哪些可以采纳 - 采纳率 60-70%但修改率 1.5x - 实际价值显著提升 ✅ 初级工程师用 AI - 看到 AI 生成的代码就哇好厉害 - 全部采纳几乎不 review - 采纳率 90%但修改率 9.4x - 实际价值反而下降 ❌老张“初级工程师用 AI 越多返工量越大——他们缺乏识别’哪些代码是 AI 幻觉、哪些是过时的库、哪些有安全漏洞’的能力。”真相 3代码量 ≠ 价值传统考核代码行数、commit 数、PR 数 → AI 让这些数字暴涨 → 但实际交付价值用户满意度、生产稳定性反而下滑 真正的考核应该是 - 有效功能数用户能用、爱用 - 生产稳定性MTTR / 事故率 - 技术债认知债 / 代码流失率 - Token 投入产出比五、第四幕阿明的最终决定复盘后阿明做了 4 个决定1. 改考核指标不再看代码量看有效价值旧考核新考核代码行数有效功能交付数Commit 数变更失败率AI 采纳率6 周后代码留存率工程师产出MTTR / 客户满意度2. 强制 Harness 流程所有 AI 代码必须经过资深工程师 review 才能合并关键模块支付、安全禁止 AI 直接写必须人工引入 Claude Code 的 Hooks 自动校验3. Token 成本透明化每个工程师每月 Token 预算 $2000超预算的需要 review 工作流引入 cheaper 模型做参考expensive 模型做决策4. 初级工程师强制培训3 个月AI 协作工程专项培训必须识别 5 类 AI 常见陷阱安全/性能/幻觉/过时/技术债通过考试才能参与 AI 项目3 个月后阿明的厨房新指标新菜数从 14 道/月降到 9 道/月-34%——数量降了差评数从 23/月降到 9/月 ——质量升了招牌菜留存率从 22% 升到 68% ——价值升了厨师加班从 62 小时降到 40 小时 ——健康升了AI 订阅费从 $8.5 万降到 $5 万 ——成本降了厨房类比阿明最终把代码量考核换成招牌菜留存率考核。3 个月后 —— 新菜少了 34%但每道菜都是真招牌差评少了 60%回头客多了 50%。这才是 AI 时代的正确玩法少而精不多而烂。阿明在年终总结写道“AI 不是让代码变多而是让有效代码变多。2026 年我们最大的教训是不要被 AI 的数量迷惑要看 AI 的价值。”六、给所有研发管理者的启示AI 提速 ≠ 价值提升——数据告诉你吞吐量 2 倍时事故可能 5 倍采纳率 ≠ 有效率——Waydev 的采纳率 80% → 留存 30%是最重要的反直觉数据初级 ≠ 更受益——DORA 2025 明确指出 AI 放大的是已有能力不是弥补差距考核要换指标——考核代码量的团队会被 AI 反噬七、相关章节44-ai-engineer-responsibility— 续集 18AI 替你写代码谁替系统负责本篇是续集 18 的数据真相延伸46-tech-debt-career-trap— 续集 20技术债困局本篇是续集 20 的组织/团队侧输入续集七31-codebase-cognitive-debt— 认知债代码流失的根因续集八32-agent-harness— Harness减少代码流失的工程解药咬文嚼字13.split-hairs/11.ai/ai-coding-productivity-paradox— 4 大研究 DORA 框架咬文嚼字13.split-hairs/11.ai/ai-code-churn— 代码流失率专题咬文嚼字13.split-hairs/11.ai/ai-coding-roi— ROI 度量框架主模块11.ai/05-applications— AI 行业应用与效能度量 2026-06-28 · 续集 19 · AI 时代反思 · 阿明餐厅