深度学习进阶(二十八)现代 LLM 的核心架构设计其三:Decoder-Only 下的 KV Cache 📅 2026/6/28 20:45:23 Decoder-Only#18 年OpenAI 提出了 GPT-1 Improving Language Understanding by Generative Pre-Training其核心内容就是现在的Decoder-Only 架构这是目前绝大多数通用大语言模型采用的基本架构。有了之前的基础Decoder-Only 的逻辑并不难理解研究人员发现对于语言建模任务而言并不一定需要单独的 Encoder。只要让模型根据已有文本不断预测下一个 Token就能够学习语言规律。因此现代大模型直接移除了 Encoder同时删除了依赖 Encoder 输出的 Cross Attention最终仅保留 Decoder 中的 Masked Self-Attention 与 FFN 结构可以看到原始的 GPT-1 基本逻辑仍然是在预训练的模型基础上继续用特定数据训练让模型适应某个任务或领域也就是Fine-tuning而这种基础的任务能力现在已经可以靠 prompt 来激活了。因此了解 Decoder-Only 架构本身的相关逻辑即可这里展开两个细节1.1 用户输入是如何作用的#既然没有 Encoder一个自然的问题是用户输入由谁来理解答案是用户输入本身就是 Decoder 的输入序列。我们直接举个例子用户提问法国的首都是哪里这句话会直接被转换为 Token 序列法国 的 首都 是 哪里 ?随后送入 Decoder。模型经过一次前向传播后预测巴黎此时序列变成法国的首都是哪里巴黎之后同理继续生成直到生成结束标记法国的首都是哪里巴黎。它位于……这种根据已经出现的内容预测下一个 Token 的过程就是自回归生成Autoregressive Generation。1.2 Attention 中的重复计算问题#明白了 Decoder-Only 的生成逻辑后现在我们来看一个推理时的问题第 步时模型需要计算 个 token 之间的自注意力然后预测第 个 token。然后第 步输入变成 个 token再算一遍注意力预测第 个。现在假设模型已经生成到了第 个 token第 步计算了 token 到 之间所有注意力。到了第 步输入变成了 token 到 标准做法会把 token 到 的 K 和 V重新计算一遍。问题就出在这个再算一遍上在第 步和 步之间token 到 的 K 和 V 变了吗答案是没有。在参数固定的推理阶段token 在第一步后就固定了。token 的内容同理在第 步生成后就已经固定了。它们的 K 和 V 不会因为一个新 token 的加入而改变。每次重新计算都是纯粹的浪费。显然这里存在相当大的优化空间这便是 KV Cache 要解决的问题。2. KV Cache#2.1 KV Cache 的内容#KV Cache 的思路很简单在第 步算完 和 后把它们存起来。第 步只需要计算 和 然后把它们追加到缓存中。所有之前 token 的 K 和 V 直接从缓存读取。就像这样步骤计算内容缓存生成 token 1算 存起来生成 token 2只算 追加到缓存生成 token 3只算 追加到缓存…每步只算一个缓存逐步增长于是原本的每一步的注意力计算是这样现在加入 KV Cache 就变成了这样其中 是缓存的历史。只有 是当前步需要计算的。很显然通过 KV Cache 我们消灭了计算 KV 投影时的无用功。在长文本生成时其带来的性能差距是数量级的。2.2 为什么 Q 不需要缓存?#既然 K 和 V 都被缓存了一个可能的问题是为什么不把 Q 也缓存起来复用区别在于它们的角色不同在自回归生成的每一步当前 token 的 Q 作用是查询历史信息。 与所有历史 K 计算注意力分数然后从所有历史 V 中聚合信息来预测下一个 token。一旦这一步的预测完成 的历史使命就结束了。