把 20 万字技术书扔进 Kimi:它的记忆到底准不准? 📅 2026/6/30 1:51:43 Kimi 的卖点就是长上下文——200 万汉字号称业界最长。但你丢一本技术书进去翻到中间某个细节问它它还记得吗我花了半个晚上做了一组实验一本 20 万字的 PostgreSQL 官方文档扔进去50 个事实性问题分布在文档的不同位置看三个模型各答对多少。先说结论Kimi 在中间位置的召回率比 GPT-4o 和 Claude 好 20 个百分点。但文档尾巴的内容——三个模型都开始跑偏。测试设计参数值测试时间2026-05-23测试材料PostgreSQL 16 官方文档中文翻译版约 200,000 字符问题数50 个事实性问题问题分布头部 0-20% (10题)、中部 20-60% (20题)、尾部 60-100% (20题)问题类型纯事实提取——参数默认值、函数签名、错误码含义、配置项名称Kimimoonshot-v1-128k月之暗面 APIGPT-4ogpt-4o-2024-11-20128K 上下文Claudeclaude-sonnet-4-20250514200K 上下文测试方法将完整文档作为 System Prompt 单轮对话输入。每个问题独立测试清空上下文后重新加载文档消除前文干扰。总体结果位置题目数KimiGPT-4oClaude头部 0-20%10100%100%100%中前 20-40%1090%80%90%中后 40-60%1080%60%70%尾部 60-80%1070%40%30%尾末 80-100%1050%30%20%总计5078%62%62%Kimi 领先 16 个百分点。主要拉开差距的位置是文档中部和尾部。头部 0-20%前三章安装、入门、SQL 语言基础三个模型全对。这部分内容在文档最前面也是模型注意力最集中的区域。10 道题没有区分度。中部 20-60%中高级特性索引、事务、性能优化这部分开始拉开差距。中前 20-40%Kimi 90% vs GPT-4o 80%GPT-4o 错了 2 题BRIN 索引的默认 pages_per_range— GPT-4o 答 128实际是 128 没错但它不自信地加了可能版本不同存在过度谨慎事务隔离级别 Serializable 的冲突处理策略— GPT-4o 答first-committer-wins实际 PostgreSQL 用的是 SSI (Serializable Snapshot Isolation)两个概念不同但 GPT-4o 混淆了中后 40-60%Kimi 80% vs GPT-4o 60%GPT-4o 的准确率明显下滑。错的 4 道题中有 2 道是直接拒答——我无法在您提供的文档中找到相关信息。但文档里确实有——在 45% 位置附近的一个参数表格里。Kimi 也错了两道但都尝试回答了且答案的方向是对的数值差了 10% 以内。Kimi 不会拒答——它总要给你点东西这是双刃剑。Claude 的表现介于两者之间70%错 3 道——其中 1 道拒答2 道不精确。尾部 60-100%管理、备份、附录尾部 60-80%Kimi 70% vs GPT-4o 40%三者的准确率都开始崩塌。GPT-4o 在这个区域 10 道题只对了 4 道且这 4 道中有 3 道答得比较短——似乎模型提取尾部信息的信心在下降。Kimi 对的 7 道题答案都比较完整但错的 3 道中有 1 道是明显的幻觉——文档里写的是max_wal_size默认 1GBKimi 答成了 512MB。512MB 是旧版本的值Kimi 似乎在靠预训练知识脑补而不是从文档中提取。尾末 80-100%Kimi 50% vs GPT-4o 30%所有模型都在挣扎。文档末尾是一些附录和参考信息信息密度较低但很分散。Kimi 还能对一半其余两个模型基本上只能碰运气——这是长上下文的尾端遗忘现象三个模型都没完全解决。按问题类型分析问题类型KimiGPT-4oClaude参数默认值15题80%60%67%函数签名10题70%60%60%错误码含义5题80%80%80%配置项名称10题90%70%70%版本差异5题70%50%50%概念定义5题80%80%80%Kimi 在配置项名称和参数默认值上的优势最明显——这类问题属于精确信息提取正好是 Kimi 的强项。响应速度指标KimiGPT-4oClaude文档加载时间~3s~5s~4s首 token 延迟1.2s0.8s0.7s单题平均耗时4.8s2.9s3.1s成本/题$0.012$0.008$0.009Kimi 的首 token 延迟明显更高——1.2 秒 vs 0.8/0.7 秒。可能是因为它需要在 200K 上下文中检索信息。但它的整体准确率最高多出来的延时是值得的。成本分析模型上下文窗口本次测试总成本单价百万 tokenKimi (moonshot-v1-128k)128K$0.620.7入/出GPT-4o128K$0.4110Claude Sonnet 4200K$0.4415Kimi 的单价是 GPT-4o 的三分之一、Claude 的四分之一但长上下文任务总成本反而更高——因为 Kimi每次对话都要重新把 20 万字文档完整的传一遍输入 token 占了成本大头。如果频繁做长文档问答输入 token 费用会累积。最终建议你的场景选谁理由读技术文档查参数 / 配置Kimi中间位置的召回率比竞品高 20%价格也便宜全文总结 / 快速概括GPT-4o速度快首 token 延迟低混合使用Kimi 查细节 GPT-4o 做总结长上下文场景的黄金组合文档 200K 字符Kimi唯一选择GPT-4o 128K 和 Claude 200K 都装不下预算敏感但需要精确信息Kimi性价比最高一个发现长上下文 ≠ 长记忆这三个模型在 20 万字文档上的表现让我确信一件事**支持 X 万字上下文和能准确回忆 X 万字中的所有细节是两回事。**GPT-4o 和 Claude 确实接受了 20 万字的输入但在 60% 位置以后的内容它们提取信息的可靠度直线下降。Kimi 做得好一些但也不是完美——末尾 20% 的内容仍然只有 50% 的准确率。实操建议不要一次性塞一本 20 万字的书让 AI 帮你回答所有问题。把你的长文档拆成 5-10 个片段分批提问——每个片段在上下文窗口的前 50% 位置准确率会高很多。