大模型注意力机制演变

📅 2026/7/6 4:31:11
大模型注意力机制演变
大模型注意力机制演变最近各个厂商都在推进长文本、低成本的大模型这必然会在注意力层面做很多文章。传统注意力机制的计算复杂度随序列长度呈二次方增长随着文本长度增加计算量会急剧上升且中间激活的存储量也随之膨胀导致成本难以控制。从2022年开始业界便出现了多种解决手段。2022Flash Attention 开始出现。这一时期的大模型注意力仍以MHA为主但 Flash Attention 在工程上运用了多种技巧来降低计算成本。因为此时大模型的瓶颈不在计算而在内存带宽上。它借鉴了分块计算与用计算换内存的思想通过多种技巧来提升计算效率。20232023年业界发现主要瓶颈在于KV Cache优化重点也集中于此。这一时期出现了GQA和Paged Attention等方案用于降低KV Cache的存储规模并更好地管理KV Cache。20242024年出现了两条并行的路线一条是继续压缩KV Cache另一条则是采用全新的架构如Mamba/线性注意力。例如DeepSeek-V2 使用了MLAMulti-head Latent Attention本质上是对KV矩阵进行压缩让模型可以学习到KV向量之间的相似性去除噪声和冗余。实验结果甚至优于传统注意力其原因可能是模型在学习压缩的过程中也学会了如何去除噪声和冗余从而获得更好的表示效果。压缩即架构的思想让某些压缩操作可以直接体现在模型结构之中无需事后处理。2025-2026这一阶段从推理阶段的补丁走向了模型原生架构如DeepSeek团队的DSA、Qwen团队的Gated Attention等。DSADeepSeek 的DSA:DSA的核心insight是我们不需要计算所有的attention只需要计算其中最相关的Attention即可。DeepSeek的注意力机制主要通过两种互补的注意力机制结合进行的分别是CSA和HCA。首先是CSA全称是compressed sparse attention。他的核心思想是将所有的token按照4个token进行分块然后进行加权求平均后计算top-k的分块最后使用MQA来计算最后的注意力分数。通过CSA计算得到的是最相关的几个token的注意力的值这有一个缺点部分不是很相关的token的信息会丢失于是又实用了HCAhighly compress attention来计算全局的注意力。HCA是将每128个token → 1个摘要块然后对所有的块计算注意力这样子可以极度节省内存和注意力感知文章的全局结构但是粒度较粗原始序列100万 token │ ├─── HCA ────────────────────────────────────── │ 每128个token → 1个摘要块 │ 100万 → 7812个摘要块 │ 对全部7812个块做注意力 │ │ 优点极度省内存和计算 │ 缺点细节损失大 │ 适合感知文章整体结构、远距离粗粒度依赖 │ └─── CSA ────────────────────────────────────── 每4个token → 1个摘要块 100万 → 25万个摘要块 ↓ 智能筛选 只选最相关的1024个块 对这1024个块做精细注意力 优点细节保留好计算也可控 缺点需要额外的筛选步骤 适合精准的语义匹配、细粒度信息检索之后。。。。从当前的技术脉络来看注意力机制的演变可能会沿着以下几个方向继续推进完全自适应的混合注意力。未来的模型可能不再为整层固定一种注意力模式而是让每个 token、每个头甚至每个前向步骤动态选择最合适的计算方式——局部用稠密、全局用稀疏、低频信息用线性/状态空间由模型自己学习最优的注意力路由策略。注意力与记忆的边界消融。KV Cache 本质上是一种被动缓存未来的架构可能会将注意力计算与主动记忆管理合二为一。模型不再简单存储历史信息而是像人脑一样主动编码、巩固、遗忘和联想注意力机制本身可能成为记忆系统的一部分而非独立模块。硬件-算法的一体化设计。随着存算一体、近存计算等新硬件形态的成熟注意力机制可能会跳出 GPU 的内存层次约束被重新设计为匹配新硬件原语的形态。届时注意力的定义可能不再局限于当前的矩阵运算范式。跨模态的统一注意力。文本、图像、视频、音频的注意力机制目前仍是各自为政。未来可能会出现一种统一的注意力原语能够原生处理多模态的时空关系不再依赖将图像打成 patch 或将视频抽帧等预处理手段。总体而言注意力机制正在从一个固定的数学公式进化为一种可塑的信息检索与压缩范式。它的核心使命——让模型动态地关注重要信息——不会改变但实现这一使命的具体形态还会经历多次迭代。