AI实战:省token妙招之【caveman】

📅 2026/7/1 16:11:44
AI实战:省token妙招之【caveman】
一个19岁大学生写了这个插件三天GitHub拿了4000多颗星。它干的事只有一件——让AI说人话别说废话。结果token省了65%但智商一点没降。说废话的AI我用得最多的就是 Claude Code日常写代码、调 bug、做 code review。按理说这钱花得值——毕竟它确实帮我干了不少活。但我忍不住翻了翻对话记录发现了一个让我心塞的事实。每次我问它一个问题它总是先说“当然我很乐意帮你”。然后是一段解释背景的废话。接着才进入正题。最后再来一段总结“希望这对你有帮助如果还有问题随时问我。”这些话每一句都是 token。每一个 token都是钱。更离谱的是有时候它帮我做一个简单的代码审查回复能有 500 多 token其中真正有用的技术建议可能就占 100 个 token剩下 400 个全是客套话和重复解释。我忽然意识到一件事我不是在为知识付费我是在为废话付费。就在我琢磨有啥办法能让 AI 少说点废话的时候我刷到了一个插件【Caveman】翻译过来就是山顶洞人。它干的事就一件让AI像山顶洞人一样说话。不是让AI变笨。是让AI砍掉所有客套话、冗余修饰、虚词废话只留干货。代码照样准确技术细节一个不少就是把好的呢让我来帮您这种话全删了。Caveman 是什么一句话Caveman 是一个插件装完之后AI的输出自动从话痨模式切成极简模式输出token平均省65%但技术内容一点不少。它支持 Claude Code、Codex、Gemini、Cursor、Windsurf、Cline、Copilot 等30多种AI编程代理。不管你用哪个基本都能装。装完之后的效果看个对比就懂了问React组件为什么会重复渲染对比回答Token普通AI“这是一个非常好的问题React中的重复渲染是很多开发者遇到的常见问题。当你的组件在不必要的情况下重新渲染时通常是因为……省略200字背景介绍……我建议你使用React.memo包裹组件并且在传递回调函数时使用useCallback。”~1200Caveman“新对象引用每次渲染。内联对象prop 新引用 重新渲染。用useMemo包裹。”~160少了87%的token说的却是同一件事。再比如问一个安全问题普通AI“当然我很乐意帮你排查这个认证中间件的token过期问题。让我先看一下你的代码然后提供一个完整的解决方案。这个问题很可能是由……”Caveman“认证中间件bug。Token过期检查用了不是。修复”同样的修复方案少了83%的废话。关键点Caveman 只压缩输出不碰思考过程。AI在脑子里还是完整推理的只是在开口说话的时候把废话过滤掉了。它和让AI简洁回答有什么区别你可能想这有什么了不起我每次让AI “简洁回答” 不就行了还真不一样。试过的人都知道每次都要手动打 “简洁回答”、“简短回答”、“别废话”——烦不烦聊了三轮之后AI就忘了又开始长篇大论“简洁回答” 是一种模糊指令AI的理解程度不稳定而 Caveman 做的是系统级的输出规则改写。它通过 Hook 机制在会话启动时就直接改写 AI 的输出风格。不需要你每次手动敲也不会聊着聊着就复发。下面这个对比更直观对比每次敲简洁回答Caveman需要手动操作每次都要一次安装永久生效效果持久性聊3轮就忘整个会话期间保持压缩程度不稳定看AI心情稳定压缩65%左右支持代码审查不支持支持/caveman-review多语言不一定你用中文它回答中文适用代理你用的那个30代理通吃怎么装一条命令不管你是 Mac、Linux 还是 Windows打开终端复制粘贴一行Mac 或 Linux 用户终端里跑一行curl -fsSL https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.sh | bashWindows 用户在 PowerShell 里跑irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/install.ps1 | iex30秒搞定。安装脚本会自动检测你装了哪些AI代理给每个都配上。装完之后输入/caveman开启压缩输入/caveman lite或/caveman ultra可以切换等级想关掉恢复正常模式就输入 “normal mode”输入/caveman-stats看省了多少 token几种压缩级别从简洁到电报Caveman 有四档级别效果适用场景lite去掉填充词和礼貌用语日常对话想省但不想太冷full默认完整的原始人模式编程、技术问答性价比最高ultra电报式极度精简你在赶时间、或者调试时不想被打扰wenyan文言文/古汉语想装逼或者追求极致压缩时用切级别的方式/caveman lite、/caveman ultra等。实战场景场景一日常代码编写这是 Caveman 的主场。你问它一个具体的编码问题它直接给你答案不带任何废话。对于已经知道自己要什么的老手来说效率提升非常明显。实测问 Claude “如何在 React 中处理表单提交”普通模式回复约 450 tokenCaveman 模式约 80 token信息完全一致。场景二写代码时debug深夜 debug你每问一个问题AI 先跟你寒暄三句。敲了 Caveman 之后回答变成“第42行。user可能为null。加空值检查。”三秒钟看完继续写代码。专注力不用被废话打断。场景三批量代码审查有几十个 PR 要审用 Caveman 的一行审查模式/caveman-review输出L42: bug: user null. Add guard.L78: perf: loop inside render. Move to useMemo.一行一个结论精准高效。场景四记忆文件压缩你的 CLAUDE.md 或项目配置文件写了几千字用 Caveman 压缩/caveman-compress CLAUDE.md700字的偏好文件能压到285字省59%。每个新会话都少花输入 token积少成多。场景五持续省钱的MCP中间件如果你用 MCP 工具Caveman 还提供了一个中间件caveman-shrink可以压缩工具描述。工具描述通常又长又啰嗦压缩之后每次调用都省 token。场景六批量任务处理如果你需要对大量文件做重复性操作比如批量添加类型注解、统一代码风格Caveman 模式下的 token 节省会被放大——因为每个文件省一点几百个文件加起来就很可观了。实测数据到底能省多少GitHub 仓库里有完整的 benchmark 数据我挑几个关键数字输出压缩效果10个典型任务的平均值普通模式平均每次回答 1214 tokenCaveman 模式平均 294 token。平均节省 65%。最高纪录解释 React 重渲染 bug从 1180 token 压到 159 token省了 87%。记忆文件压缩效果5个典型文件平均值原始平均 898 字符压缩后 481 字符。平均节省 46%。叠加使用的话记忆文件省 46% 的输入 token每个回答省 65% 的输出 token。一个月下来总 token 消耗大概能腰斩。要避开的坑坑1只省输出不省思考Caveman 只压缩输出 token。AI 在脑子里的推理过程一点没省。所以别指望装了它就能大幅降低推理成本——降的是输出成本。好消息是大多数人用的 API 定价里输出 token 比输入贵好几倍所以输出省 65% 已经够香了。坑2极少数场景反而更费 token官方宣称的省 65%“是一个平均值实际效果因任务而异。对于本身就很简单的任务比如帮我写一个 hello world”节省空间有限。对于需要大量解释的复杂任务节省比例会更高。别期望每个场景都能省 75%。benchmark 里有个例外——实现 React Error Boundary 那个任务Caveman 模式反而多用了 68% 的 token。什么原因因为 Error Boundary 的实现细节比较多精简表达之后 AI 不得不多解释几轮才说清楚。遇到这种情况关掉 Caveman 用正常模式就行。坑3别在需要氛围感的场景用写小说、写营销文案、写情感充沛的内容——Caveman 会把这些全毁了。它追求的是信息密度不是情绪表达。该啰嗦的地方就让它啰嗦。坑4别在探索性任务里用Caveman 最适合你已经知道要什么的场景。如果你在做技术调研、探索新方案、或者让 AI 帮你头脑风暴关掉它。让 AI 多说点废话那些推理过程可能是有价值的。坑5注意输入 token 的消耗Caveman 主要压缩输出 token。如果你的输入本身就很大比如贴了一大段代码让它分析输出再省也省不了多少。这时候可以配合它的记忆压缩功能或者自己先精简输入。坑6新手慎用 Ultra 模式Ultra 模式的压缩力度极大回复几乎只有关键词。老手看着高效但如果你对一个技术不太熟这种回复可能让你一头雾水。建议新手从 Lite 模式开始觉得太啰嗦再切 Full。最佳实践第一日常编码用 Full 模式需要深度思考时切回普通模式。这是最实用的组合。第二善用模式切换。Caveman 支持随时开关输入normal mode就恢复正常再输入指令又能激活。不需要在同一个模式里死磕。第三搭配 Claude Code 使用效果最好。Caveman 最初就是为 Claude Code 设计的集成度最高。后来也支持了其他 AI 编码工具但 Claude Code 的体验是最丝滑的。第四关注你的实际账单。别只看 token 节省比例要看月底的实际费用变化。有些用户的 token 节省了但因为用得更多了总费用反而没降多少。第五试试文言文模式。如果你是中文用户文言文模式的信息密度比英文穴居人模式还高而且读起来有一种奇妙的穿越感。写在最后Caveman 解决了一个很具体但很普遍的问题AI 太能说了而且那些会说是要收费的。它不改变 AI 的能力。它只是把 AI 输出的水分拧干了。你说不定也有同感——每次看 AI 回答先快速扫过前几行找关键词跳过那些当然了“很高兴为你解答”“这是一个很常见的问题”。你已经在脑子里给 AI 做了手动 Caveman。现在你可以把这个手动环节也自动化了。一条命令从今以后所有 AI 自动变成极简模式。一行命令装好可能每个月帮你省下一顿火锅钱。如果这篇文章对你有帮助欢迎关注、点赞、转发。你的每一次互动都是我继续写下去的动力。评论区聊聊你算过自己每个月为 AI 的废话付了多少 token 吗