Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin

📅 2026/7/2 4:53:43
Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
paper: https://arxiv.org/pdf/2510.06477ICLR 2026一句话概括这篇论文想说明LLM 中的 attention sink 和 compression valley 不是两个孤立现象而是同一个底层机制的两种表现这个机制就是 residual stream 中某些 token尤其 BOS token出现 massive activations。更直白地说模型中间层里某个特殊 token 的激活值突然变得异常大这个异常大的向量一方面让很多 attention head 把注意力吸过去形成attention sink另一方面又让整层 token 表征在奇异值谱上被一个主方向主导形成表征压缩。论文认为这两件事本质上是同一枚硬币的两面。它要解决的问题之前有两个现象一直比较奇怪。第一个是attention sink一些 attention head 会把大量注意力放到 BOS、首 token 或其他语义上不太重要的 token 上。看起来很反直觉因为模型似乎在“浪费注意力”。第二个是compression valleyLLM 的中间层表征会突然变得很“低维”也就是高维 hidden states 的有效秩、熵或信息分布明显下降。看起来像模型在中间层把信息压缩了一次。以前这两个问题大多是分开研究的。本文的核心问题是它们有没有共同原因如果有这个原因能不能被理论证明、被实验验证论文明确说此前 attention sink 已经被和 massive activations 联系起来但 compression valley 还缺少明确因果机制。关键概念怎么理解Massive activations就是 residual stream 中某些 token 的 hidden state 范数特别大远大于其他 token。论文里特别关注 BOS token因为很多模型中 BOS token 在中间层会出现极大的 L2 norm。论文报告在多个模型中BOS norm 可在中间层上升到普通规模的 (10^3) 到 (10^4) 量级。Compression valley论文用 representation matrix 的奇异值分布来度量压缩。把一层里所有 token 的 hidden states 组成矩阵 (X)如果最大奇异值占据了绝大部分能量那么矩阵虽然形式上是高维的但实际信息主要集中在少数方向上熵就会下降表现为压缩。论文用 matrix-based entropy、anisotropy 等指标衡量这一点。Attention sink论文用 sink score / sink rate 衡量某个 token 被多少 attention head 集中关注重点看 BOS token。它们设定阈值后统计有多少 head 对 BOS 的注意力达到 sink 标准。核心理论为什么 massive activation 会导致压缩论文的理论核心是 Theorem 1假设 (x_0) 是 BOS token 的表示(M|x_0|^2)其他 token 的总能量是 ®其他 token 与 BOS 的方向对齐程度是 (\alpha)那么表示矩阵 (X) 的最大奇异值满足\sigma_1^2 \ge M \alpha R这句话的含义是只要 BOS token 的范数足够大它就会强行制造出一个主导奇异值。一旦最大奇异值主导整个矩阵表示矩阵的能量就集中到一个方向熵下降有效维度下降于是出现 compression valley。论文进一步给出了 dominance、anisotropy 和 entropy 的上界/下界关系说明 norm ratio 越大压缩越强。([arXiv][1])这个理论比较重要因为它不是只说“我们观察到相关”而是说明如果一个 token 的激活范数压倒其他 token那么谱压缩在数学上几乎不可避免。实验证据论文在多个 decoder-only LLM 上做了实验包括 Pythia 410M/6.9B、LLaMA3 8B、Qwen2 7B、Gemma 7B、Bloom 1.7B 等并提到实验覆盖 410M 到 120B 参数规模。它们在 GSM8K 的 7.5K 训练样本上统计每一层的 normalized entropy、BOS sink rate 和 BOS token norm。结果是三条曲线高度同步BOS norm 暴涨时entropy 掉下去sink rate 接近 1。([arXiv][1])论文还看了训练过程发现这三个现象在 Pythia 的训练早期就一起出现大约在 step 1k 左右形成并在之后训练中持续存在。这说明它不是推理时偶然出现的小现象而像是模型训练过程中很早学出来的一种内部结构。([arXiv][1])更关键的是消融实验。作者在 massive activations 出现的层把 MLP 对 BOS token 的贡献置零。结果在 LLaMA3 8B 中原本 entropy 会掉到 0.02 bits但消融后保持在 0.4–0.5 bitssink rate 也保持为 0BOS norm 不再异常放大。这说明 massive activation 不只是和两个现象相关而是很可能具有因果作用。([arXiv][1])论文提出的三阶段理论Mix–Compress–Refine论文进一步把这个机制上升为一个 LLM 深度计算理论叫Mix–Compress–Refine。第一阶段是Mix早期层大约 0–20% 深度。这一阶段 attention 比较分散模型做广泛的信息混合把不同 token 的上下文初步整合起来。([arXiv][1])第二阶段是Compress中间层大约 20–85% 深度。massive activations 出现BOS token 变成高范数 token导致 representation compression同时 attention sink 出现模型减少继续混合避免过度平滑或无效混合。论文认为这一阶段不是“坏事”而可能是在压缩冗余信息、保留高层语义结构。([arXiv][1])第三阶段是Refine后期层大约 85–100% 深度。BOS token 的相对优势下降其他 token 的 norm 上升token norm 逐渐均衡表示重新展开attention pattern 从 sink 转向 identity head、previous-token head、局部位置型 attention用于做 token-specific refinement。它解释了什么实际现象这篇论文还解释了一个常见矛盾为什么有些任务中间层效果最好而生成任务往往需要最后层。论文发现embedding / classification / retrieval 这类任务更适合中间层因为中间层压缩后高层语义结构更集中线性探针、聚类、检索可能更容易。论文在 ARC、SST-2、MTEB 等任务上观察到embedding-style 任务常在 25–75% 相对深度达到峰值并且比早期/晚期层高 10–20%。([arXiv][1])但generation / next-token prediction不一样。生成需要最后阶段的 token-specific refinement所以 perplexity 和多选 QA 的 LogitLens 性能通常要到后半段尤其 Phase 3才明显提升。也就是说中间层可能已经有较好的语义表征但还不够适合直接生成下一个 token。论文真正成立的贡献我认为它比较扎实的贡献有三个。第一它把attention sink、compression valley、massive activation三个现象放到了同一个机制框架里而不是孤立解释。这个统一视角有价值。第二它对“massive activation 导致 compression”给出了比较清楚的谱分析证明。这个理论部分比单纯画曲线更强。第三它做了有针对性的 ablation说明移除 BOS 上的 massive activation 后compression 和 sink 都会消失或显著削弱。这让文章从“相关性观察”推进到了“机制性证据”。需要谨慎的地方这篇论文很有启发但不要把它理解成已经完全解释了 LLM 内部计算。它主要研究 decoder-only Transformer且重点围绕 BOS/special token、residual stream norm、奇异值熵和 attention pattern。不同架构、不同 tokenizer、不同位置编码、不同训练策略下这套三阶段划分未必完全一致。论文自己也提到 RoPE 模型和非 RoPE 模型在后期 attention pattern 上会有差异。另外Mix–Compress–Refine 更像是一个机制假说或解释框架而不是一个已经能直接提升模型训练/推理效果的算法。它的应用价值可能在后续工作中体现比如 layer selection、early exit、embedding extraction、模型压缩、activation intervention、attention head 分析等。论文结论也说它希望帮助连接 head-level mechanisms 和 representation geometry从而指导更高效、可控的 LLM 设计。