深度学习进阶（二十八）现代 LLM 的核心架构设计其三：Decoder-Only 下的 KV Cache

📅 2026/6/28 20:45:23

Decoder-Only#18 年OpenAI 提出了 GPT-1 Improving Language Understanding by Generative Pre-Training其核心内容就是现在的Decoder-Only 架构这是目前绝大多数通用大语言模型采用的基本架构。有了之前的基础Decoder-Only 的逻辑并不难理解研究人员发现对于语言建模任务而言并不一定需要单独的 Encoder。只要让模型根据已有文本不断预测下一个 Token就能够学习语言规律。因此现代大模型直接移除了 Encoder同时删除了依赖 Encoder 输出的 Cross Attention最终仅保留 Decoder 中的 Masked Self-Attention 与 FFN 结构可以看到原始的 GPT-1 基本逻辑仍然是在预训练的模型基础上继续用特定数据训练让模型适应某个任务或领域也就是Fine-tuning而这种基础的任务能力现在已经可以靠 prompt 来激活了。因此了解 Decoder-Only 架构本身的相关逻辑即可这里展开两个细节1.1 用户输入是如何作用的#既然没有 Encoder一个自然的问题是用户输入由谁来理解答案是用户输入本身就是 Decoder 的输入序列。我们直接举个例子用户提问法国的首都是哪里这句话会直接被转换为 Token 序列法国的首都是哪里 ?随后送入 Decoder。模型经过一次前向传播后预测巴黎此时序列变成法国的首都是哪里巴黎之后同理继续生成直到生成结束标记法国的首都是哪里巴黎。它位于……这种根据已经出现的内容预测下一个 Token 的过程就是自回归生成Autoregressive Generation。1.2 Attention 中的重复计算问题#明白了 Decoder-Only 的生成逻辑后现在我们来看一个推理时的问题第步时模型需要计算个 token 之间的自注意力然后预测第个 token。然后第步输入变成个 token再算一遍注意力预测第个。现在假设模型已经生成到了第个 token第步计算了 token 到之间所有注意力。到了第步输入变成了 token 到标准做法会把 token 到的 K 和 V重新计算一遍。问题就出在这个再算一遍上在第步和步之间token 到的 K 和 V 变了吗答案是没有。在参数固定的推理阶段token 在第一步后就固定了。token 的内容同理在第步生成后就已经固定了。它们的 K 和 V 不会因为一个新 token 的加入而改变。每次重新计算都是纯粹的浪费。显然这里存在相当大的优化空间这便是 KV Cache 要解决的问题。2. KV Cache#2.1 KV Cache 的内容#KV Cache 的思路很简单在第步算完和后把它们存起来。第步只需要计算和然后把它们追加到缓存中。所有之前 token 的 K 和 V 直接从缓存读取。就像这样步骤计算内容缓存生成 token 1算存起来生成 token 2只算追加到缓存生成 token 3只算追加到缓存…每步只算一个缓存逐步增长于是原本的每一步的注意力计算是这样现在加入 KV Cache 就变成了这样其中是缓存的历史。只有是当前步需要计算的。很显然通过 KV Cache 我们消灭了计算 KV 投影时的无用功。在长文本生成时其带来的性能差距是数量级的。2.2 为什么 Q 不需要缓存?#既然 K 和 V 都被缓存了一个可能的问题是为什么不把 Q 也缓存起来复用区别在于它们的角色不同在自回归生成的每一步当前 token 的 Q 作用是查询历史信息。与所有历史 K 计算注意力分数然后从所有历史 V 中聚合信息来预测下一个 token。一旦这一步的预测完成的历史使命就结束了。

新闻详情

相关阅读

微信网页版终极解锁方案：快速解决无法访问的完整指南

2026 会议纪要软件哪个好？免费额度够用不踩雷我只留这一款

GPT-5.6深度解析：Sol/Terra/Luna三档齐发与Ultra子智能体新范式

[算法实战] 用动态规划求解最大活动时长：从会议安排到资源优化

瑞萨PG-FP6编程器MCU支持列表解析与量产烧录实战指南

STM32H743+CubeMX-主从定时器联动：TIM1精准输出PWM，TIM2无中断同步计数

终极指南：如何用Python自动化脚本轻松搞定B站会员购抢票

ABAP Open SQL 新语法实战：从常量赋值到内表关联的进阶指南

Hi7011替代H5112C：更高电压、更大电流与65536级高辉调光的国产升级方案

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！