AI 上下文限制到底是怎么回事——用最直白的话讲明白 128K、1M 和 Agent

📅 2026/6/28 4:22:40
AI 上下文限制到底是怎么回事——用最直白的话讲明白 128K、1M 和 Agent
文章目录前言一、上下文就是 AI 的记性二、为什么会有这个限制三、128K 和 1M 是什么意思四、为什么 1M 最近才有五、Agent 干了什么——在有限空间里收纳六、限制在模型不在 Agent七、三个记住就行前言这篇文章用最直白的方式讲清楚AI 为什么聊着聊着就忘了你是谁、128K 和 1M 到底是什么、Agent 又干了什么。不用任何技术背景读完就能跟别人讲明白。一、上下文就是 AI 的记性你跟 AI 聊天问一句答一句。上下文就是它一次能记住的对话总量。你我叫小张 AI好的小张 你我喜欢吃火锅 AI记住了小张爱吃火锅 你我今年 28 AI28 岁的小张爱火锅 ...聊了一百轮之后... 你我叫什么 AI不好意思我不记得你是谁 ↑ 最早那条我叫小张已经被挤出去了就像微信聊天记录。往上翻 10 条能看到往上翻 500 条就翻不动了。上下文窗口 “最多能往上翻多少”。二、为什么会有这个限制AI 跑在 GPU 上GPU 有一个硬件的存储空间叫显存。你问一句话 → 占一点点显存 AI 记在心里 → 占一点点显存 你问下一句 → 又占一点点显存 ... 聊到第几千句 → 显存满了 → 报错或忘掉最早的消息为什么不能无限制因为 AI 的注意力机制是O(n²)的对话量翻一倍 → 计算量翻四倍 对话量翻十倍 → 计算量翻一百倍GPU 撑不住就只能设一个上限。三、128K 和 1M 是什么意思K 千M 百万。这里的数字指的是 token 数。一个中文字大概 1-2 个 token约等于一个汉字。上下文大小能记住多少128K token约 150 页的对话1M token约 1200 页的对话一部《三体》三本约 90 万字 ≈ 1M token。所以 128K 的模型读不完一整本小说1M 可以。四、为什么 1M 最近才有以前做不到三个原因① 显存放不下128K 上下文 ≈ 2GB 显存 1M 上下文 ≈ 16GB 显存一张 GPU 总共就 80GB 显存1M 上下文就要吃掉 16GB。以前显存更小根本塞不下。② 计算太慢了128K → 够算 1M → 要算 64 倍 → 一分钟才能回你一句话谁受得了等一分钟直到 Flash Attention 这些新技术出来把速度提了十几倍1M 才变得能用了。③ 以前没人需要在 Claude Code 这种长对话 Agent出现之前大家跟 AI 聊天最多十几轮就结束了。没需求就没动力去搞 1M。2024 年是分水岭Gemini 1.5 第一个喊出 1M之后各家跟上来。前置技术更聪明的算法、更大的显存、位置编码改进刚好在这一年凑齐了。五、Agent 干了什么——在有限空间里收纳模型给的记性上限是 128K但 Agent 不可能真的塞满因为它还要留空间给回复。Agent 做的事就像小户型收纳房子就 30 平上下文 128K 策略 1扔东西 → 工具返回了 5000 行的日志 → 只留前 20 行后面全砍掉 策略 2做摘要 → 聊了 50 句代码 bug → 压成一句话修了登录页一个 CSS bug 策略 3装不下就喊停 → 上下文满了请把任务拆小再试Agent 不创造空间只管理空间。房子是 30 平就是 30 平收纳再厉害也变不出 100 平。六、限制在模型不在 Agent┌──────────────────────────┐ │ 模型盖房子的 │ │ 决定了最多 128K 还是 1M │ │ Agent 改不了这个 │ ├──────────────────────────┤ │ Agent搞收纳的 │ │ 决定了怎么在限额内省着用 │ │ 删旧消息、做摘要、喊停 │ └──────────────────────────┘模型升到 1M 房子从 30 平变成 300 平。Agent 一行代码不用改自动住得更宽敞。七、三个记住就行上下文 AI 一次能记住多少对话。记性有限不是无限聊。128K / 1M 记性大小的单位。越大越贵越难做但聊起来越爽。Agent 收纳师。空间有限就帮你省着用但不可能无中生有。