AI实战:省token妙招之【Headroom】

📅 2026/7/2 11:46:41
AI实战:省token妙招之【Headroom】
如果把 AI 比作一个吃货,RTK 是"水龙头过滤器",只过滤终端这一路水;Headroom 是"全屋净水系统",过滤所有进入 AI 的信息。全屋净水系统前两篇文章我分别写了 Caveman和 RTK,一个管输出端,一个管输入端。如果把 AI 比作一个吃货,它每天要吃大量信息才能干活。你家的水(信息)有几路:终端命令输出一路、文件内容一路、对话历史一路、搜索结果一路……RTK是一个水龙头过滤器,装在终端这一路水管上。它只管这一路水,过滤得又快又干净,但其他几路水它碰不到。Headroom是一个全屋净水系统,装在你家的总进水管上。所有进入 AI 的信息——不管从哪来的——都要经过它过滤一遍。覆盖面更广,但处理速度比 RTK 慢一些。Headroom做的事情更大:它不只管终端输出,而是管所有喂给 AI 的输入——对话历史、文件内容、RAG 检索结果、JSON 结构、函数调用返回值等所有上下文信息,全部经过它的压缩管线。Headroom:专门给AI上下文瘦身的工具Headroom,GitHub上42.5K Star,用Python和Rust写的,Apache 2.0完全开源。平时让AI干活,AI要"读"很多东西——工具返回的结果、命令行输出、代码搜索结果、文件内容、对话历史。这些东西全部要塞进AI的上下文里,每个字都是token,每个token都是钱。Headroom 做的事情就一件:在AI读这些内容之前,先拦下来压一遍。该删的删、该精简的精简、该保留的保留。AI拿到的是压缩后的精华版,但该回答的问题一个不少,废话全砍了。官方测试数据场景原始Token压缩后节省代码搜索(100条)17,7651,40892%SRE排障65,6945,11892%GitHub Issue分类54,17414,76173%代码库浏览78,50241,25447%JSON工具输出~8,000~1,20085%文本/日志~10,000~1,20088%准确率方面:数学题零掉分,事实问答反而涨了3个百分点,工具调用保持97%。不是砍信息,是砍噪音,关键是回答质量没掉。它是怎么做到的?很多压缩工具都是一刀切——不管内容是什么,统一截断或统一摘要。Headroom不这么干。它先做内容路由,自动判断这段内容是JSON、代码、日志还是自然语言,然后挑最合适的算法去压。① SmartCrusher:专治JSON工具返回的JSON,50条记录,每条都有"name"“email”“role”"status"这些重复的key。SmartCrusher检测到数组结构后,把key提出来当表头,值按行排——类似把JSON变成更紧凑的结构。官方数据:70-90%节省。② CodeCompressor:代码感知压缩基于tree-sitter做AST解析,识别代码结构后,保留函数签名、类定义、import和类型信息,砍掉函数体里的具体实现。模型做代码搜索