分散损失抵消嵌入凝聚,或提升小语言模型泛化能力!

📅 2026/7/5 8:44:06
分散损失抵消嵌入凝聚,或提升小语言模型泛化能力!
一句话总结大语言模型LLMs为何比小语言模型表现更优是数据量还是参数规模或许几何特性也有一定作用什么是嵌入凝聚现象语言模型的每个Transformer层会将输入的每个标记表示为高维嵌入空间中的一个向量。我们发现随着这些向量在Transformer层中传递它们常被限制在一个狭窄的锥体中通过成对余弦相似度测量其指向越来越相似。我们把这种几何现象称为“嵌入凝聚”它有以下特点1. 相较于大型模型小型模型中的嵌入凝聚现象更严重图2。2. 在控制混杂因素的情况下该现象具有可重复性图3。3. 该现象在模型初始化时就已出现预训练可缓解这一现象图4。4. 从大型模型进行知识蒸馏不能解决这一问题图5。本文5分钟简介本文提出了一种基于观察的语言模型训练改进方法。我们观察到一种几何现象——“嵌入凝聚”即小型语言模型中标记嵌入会坍缩到一个狭窄的类似锥体的子空间中。随后我们设计了“分散损失”这一训练目标以抵消这种影响。特点1模型越大凝聚程度越低在同一模型系列中小型模型的嵌入凝聚现象更严重标记嵌入会朝着近乎平行的方向坍缩而大型模型则能更好地抵抗这种坍缩。这种效果在选择输入数据集时也非常稳定。特点2控制混杂因素时可重复为了将模型大小的影响与其他混杂因素隔离开来我们进行了一项对照实验。在实验中我们预训练了类似GPT2的模型仅改变多层感知机MLP的维度同时保持其他所有组件不变包括层数、嵌入维度、数据集和训练设置。实验中观察到了相同的现象。特点3凝聚现象早期出现嵌入凝聚现象在模型初始化时就已出现并且预训练会逐渐缓解而非加剧这一现象。特点4蒸馏并非解决方案从大型模型进行知识蒸馏并不能使小型模型获得对嵌入凝聚的抵抗力。分散损失嵌入凝聚会使标记嵌入向量坍缩到狭窄的锥体中从而降低Transformer的表达能力无法充分利用表示空间。我们假设在训练过程中分散嵌入小型模型可以实现与大型模型更相似的表示能力从而在不增加参数数量的情况下缩小性能差距。我们的分散损失受到了论文“[Diffuse and Disperse](https://arxiv.org/abs/2506.09027)”的启发并进行了实际修改。分散损失在训练中期和预训练过程中可以抵消嵌入凝聚的影响。结论大型语言模型优于小型语言模型可能不只是因为参数更多还与它们在潜在表示中组织信息的方式有关。我们期待未来能在这个有趣的方向上看到更多研究。免责声明如果你打算重现这项工作或借鉴其中的部分内容以下是一些建议1. 嵌入凝聚这部分在我们的实验中表现良好。在许多模型系列和输入数据集以及控制条件下都能一致观察到这一现象。根据模型系列的不同趋势可能会有所强弱但我们的关键观察结果并非通过刻意挑选实验得到。我们不能保证所有模型系列都存在这种现象但你可以在自己喜欢的模型上进行尝试。2. 分散损失这部分更具探索性。收益相对较小改进效果非常细微如果不进行正式的统计测试很难将其与噪声区分开来而且我们进行的测试非常基础因为我们并非专业的统计学家。一位在数学推理方面经验更丰富的朋友在论文被接受后评论说我们的训练中期方案不太标准因为常见的做法是加强特定领域的能力而不是继续在 wikitext 上进行训练。我们的预训练实验也比较有限因为大规模运行成本很高。如果你对这种方法感兴趣建议你先与团队一起在小规模上尝试再投入大量的训练预算。未来研究方向我个人认为以下几个方向可能具有潜在的意义1. 更好的正则化方法分散损失是一种简单直接的解决方案可能有优点也有缺点。设计一种更精细的方法来抵消嵌入凝聚可能会更有帮助。2. 预训练之后跟踪嵌入凝聚在训练后期如监督微调SFT和强化学习RL的演变情况。目前尚不清楚凝聚现象是否会再次出现、稳定下来或者与对齐目标产生不同的相互作用。3. 机制和因果关系确定嵌入凝聚的根本原因并建立凝聚现象与下游行为如泛化能力之间更强的因果联系。4. 更好的架构设计本质上能够抵抗凝聚的模型系列或模块以补充或替代单纯基于损失的正则化方法。5. 更好的初始化开发能够使模型在初始阶段就处于较少凝聚状态的初始化方案从而可能减轻训练目标抵消几何坍缩的负担。引用复制BibTeXinproceedings{liu2026dispersion, titleDispersion loss counteracts embedding condensation and improves generalization in small language models, author{Liu, Chen and Sun, Xingzhi and Xiao, Xi and Van Tassel, Alexandre and Xu, Ke and Reimann, Kristof and Liao, Danqi and Gerstein, Mark and Wang, Tianyang and Wang, Xiao and Krishnaswamy, Smita}, booktitleInternational Conference on Machine Learning, year{2026}, organization{PMLR}}致谢1. 这项工作最初受到论文“[A mathematical perspective on Transformers](https://arxiv.org/abs/2312.10794)”的启发。2025年4月初我们观看了关于该论文的 [一场讲座](https://www.youtube.com/watch?v3McmEtA3t_0) 后开始了这个项目。我们对该论文中的一个理论结果很感兴趣即如果无限堆叠Transformer层所有标记嵌入都会聚集到同一点我们好奇是否能在实验中观察到这种现象。这促使我们在论文中发现了嵌入凝聚的关键现象。2. 分散损失的设计很大程度上受到了 [Runqian](https://raywang4.github.io/) 和 [Kaiming](https://scholar.google.com/citations?userDhtAFkwAAAAJ) 的论文“[Diffuse and Disperse: Image Generation with Representation Regularization](https://arxiv.org/abs/2506.09027)”的启发。他们的论文在我们完成嵌入凝聚的初步观察并思考如何缓解这一现象后不久发表。我一读这篇论文就觉得它非常相关可以作为一个合理的解决方案。