小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里

📅 2026/6/26 5:02:08
小模型不一定要从头练!普林斯顿研究:预算有限剪枝完胜,但真正的优势藏在稀疏里
如今大模型赛道一个有趣的趋势是大家越来越关注“小模型”。无论是出于端侧部署的效率需求还是为了降低推理成本一个性能强大、尺寸精悍的小模型正成为许多团队的“梦中情模”。那么如何经济高效地获得一个强大的小模型ArXiv URLhttp://arxiv.org/abs/2606.14150v1通常有两条路一是“从头开始”收集海量数据扎扎实实地训练一个全新的小模型二是走“捷径”找一个现成的、强大的大模型通过“剪枝”Pruning技术把它“瘦身”成一个小模型。直觉上剪枝似乎更讨巧因为它能继承大模型的“知识”相当于站在巨人的肩膀上。但这个“巨人”本身也消耗了海量的计算资源才训练出来。这条捷径到底值不值在严格的资源控制下它真的比从头训练更好吗来自卡内基梅隆大学、纽约大学和普林斯顿大学的最新研究通过对Llama-3.1-8B进行系统性的剪枝实验给出了迄今为止最清晰的答案。核心结论可以浓缩为一句话在训练预算有限的情况下剪枝是获得高性能小模型的明确赢家但如果预算充足从头训练可以追平甚至超越粗粒度的结构化剪枝却难以撼动细粒度稀疏剪枝的优势——这揭示了剪枝所传递的知识并非“钞能力”可以完全替代。01 “造”个小模型捷径真的存在吗随着Llama、Gemma、Qwen等强大的开源大模型唾手可得一个实际的问题摆在所有开发者面前当我们需要一个特定尺寸比如4B参数的模型时是应该从零开始用数千亿甚至上万亿的Token从头预训练一个还是直接拿现成的Llama-3.1-8B来“砍一刀”剪枝的诱惑力在于它承诺了一条通往强大小型模型的捷径。理论上大模型在训练过程中已经学到了关于语言、世界和推理的复杂模式剪枝操作可以保留这些知识的精华从而得到一个“出生就在罗马”的小模型。相比之下从头训练的模型则需要自己从零开始探索和学习。但这种继承并非没有代价。首先必须先有一个训练好的大模型作为“父模型”。其次剪枝后的模型通常也需要一轮“再训练”retraining来恢复性能。整个流程的真实成本需要把父模型的预训练成本也考虑在内。这就引出了一个悬而未决的关键问题剪枝带来的优势究竟只是一个可以被更多训练数据追上的“先发优势”还是一种无法通过额外数据弥补的“知识转移”这篇论文的工作正是为了在严格控制变量的条件下正面回答这个问题。02 重新定义问题剪枝不是压缩是“初始化”要进行公平的比较首先需要一个清晰的定义。过去我们常将剪枝视为一种模型压缩技术目的是让大模型变得更小。而本文的研究人员提出了一个关键的视角转换将剪枝视为一种初始化initialization策略。也就是说剪枝后得到的权重不再被看作是最终成品而是被当作训练目标小模型的一个“高质量起点”。与之相对的就是从一个随机生成的权重集合开始训练即“随机初始化”。这个视角的转变让比较的基准变得异常清晰。问题不再是“剪枝后的模型vs原始大模型”而是在拥有相同目标架构、使用相同训练数据流的情况下采用“剪枝初始化”是否优于“随机初始化”为了彻底回答这个问题研究人员设计了两种严格的“Token匹配”对比实验同等训练预算对比 (Equal training token budget)假设剪枝后的模型需要用50B Token进行再训练。那么从头训练的随机初始化模型也只给50B Token的训练数据。这能直接衡量两种初始化策略的优劣。同等总预算对比 (Equal total token budget)将剪枝流程的总耗费计算在内。假设父模型预训练用了200B Token剪枝后再训练用了50B Token总计250B。那么从头训练的模型就给予全部250B Token的训练数据。这旨在检验“钞能力”更多的训练数据是否能抹平剪枝带来的优势。03 实验设计在 Llama-3.1-8B 上挥舞六把“手术刀”实验的“手术台”选定为当前最先进的开源模型之一Llama-3.1-8B。研究人员选择了六种有代表性的剪枝方法覆盖了从粗到细的不同“粒度”granularity如同六把功能各异的“手术刀”。这些方法主要分为两大类结构化剪枝 (Structured Pruning)移除完整的模型组件比如整个Transformer层深度剪枝、注意力头或前馈网络中的通道宽度剪枝。这就像从一栋大楼里拆掉一整层或一整根柱子得到的是一个更小但依然是“标准”的密集架构。代表方法有Minitron-D (深度)、Minitron-W (宽度)、FLAP和Sheared LLaMA。稀疏剪枝 (Sparse Pruning)不改变模型的宏观架构而是将单个或小簇的权重参数置为零。这好比保持大楼的框架不变但把墙壁里的部分钢筋或电线抽掉。这种方法更加灵活但生成的稀疏模型需要特定的硬件或软件库才能高效推理。代表方法有Wanda和SparseGPT。实验的核心围绕50%的剪枝率展开即将8B的Llama-3.1模型压缩到约4B。这是一个业界常用的标准设定便于横向比较。04 发现一预算有限剪枝完胜在第一个对比场景——“同等训练预算”下结论异常明确。当给予相同的再训练Token数量例如50B时所有六种剪枝方法得到的“剪枝初始化”模型其性能都稳定地、全方位地优于“随机初始化”的从头训练模型。上图展示了Minitron-D一种深度剪枝方法的结果。紫色线代表剪枝后继续训练的模型P200-RN蓝色线代表从头训练的模型SN。无论是在验证集损失越低越好还是下游任务平均准确率越高越好上紫色线从一开始就处于领先地位并且在整个再训练过程中始终保持优势。具体到数字上使用Minitron-W方法剪枝的模型在常识问答基准Hellaswag上的准确率比从头训练高出10.2%。对于稀疏剪枝这种优势同样存在并且粒度越细非结构化vs 2:4稀疏优势越大。这有力地证明了父模型传递的知识确实提供了一个强大的起点让小模型在学习过程中“少走弯路”。然而这种优势并非无限。研究人员发现随着剪枝率的提高即模型被砍掉的部分越多剪枝初始化的优势会逐渐减小。当剪枝率达到惊人的81.3%时剪枝模型的性能就和从头训练基本持平了甚至在某些指标上略有不如。这也很符合直觉当你把父模型砍得只剩骨架时其蕴含的“知识遗产”自然也就所剩无几了。05 发现二预算充足“钞能力”也买不来稀疏知识那么如果给从头训练的模型足够多的数据它能追上剪枝模型吗这就来到了第二个对比场景——“同等总预算”。在这里故事变得复杂起来并且揭示了不同剪枝粒度之间的深刻差异。对于粗粒度的结构化剪枝答案是“能”。当从头训练的模型S250获得了剪枝全流程所消耗的全部250B Token后它的性能成功追上甚至反超了剪枝模型P200-R50。例如在使用Minitron-D方法时S250在所有基准上都优于P200-R50。这意味着结构化剪枝带来的“先发优势”本质上是可以用更多的训练数据来弥补的。但对于细粒度的稀疏剪枝答案却是“不能”。即使从头训练的模型获得了海量数据它在多数基准上的表现依然与稀疏剪枝后的模型相当甚至更差。特别是在最细粒度的非结构化稀疏剪枝Wanda-U上剪枝模型在8个下游任务中的6个都保持着领先。这是整篇论文最令人深思的发现。它强烈暗示细粒度剪枝所转移的知识具有某种特殊性它并非简单地增加训练数据就能学到的。这些分布在亿万权重中的精妙模式似乎是大模型在海量数据和巨大规模下“涌现”出的独特结构而从头训练的小模型很难在有限的规模内复现这种结构。06 粒度之辨性能与效率的“鱼与熊掌”综合来看研究揭示了一个清晰的规律在相同的剪枝率下剪枝的粒度越细保留的父模型性能越多对从头训练的优势也越大。非结构化稀疏2:4稀疏宽度剪枝深度剪枝从性能上看稀疏剪枝无疑是王者。但性能的优势却要以效率的牺牲为代价。这正是实践中“鱼与熊掌”的困境。稀疏模型虽然参数量非零权重少了但其不规则的稀疏结构在通用硬件如CPU或没有稀疏计算单元的AI加速器上并不能带来实际的推理加速。研究中使用的Google TPU v4就无法从稀疏性中获益导致稀疏模型的训练速度和密集模型几乎一样。相比之下结构化剪枝尤其是深度剪枝虽然在性能上损失最大但它产生的是一个标准的、更小的密集模型。这种模型无需任何特殊硬件支持就能在任何地方实现实打实的内存节省和推理加速。这就给实践者提出了一个明确的权衡追求极致性能选择细粒度的稀疏剪枝但需要确保部署环境有专门的硬件如支持2:4稀疏的NVIDIA A100/H100 GPU来发挥其效率优势。追求通用效率选择结构化剪枝接受一定的性能损失换取在各种硬件上都能生效的、可靠的效率提升。而这篇论文的发现恰好点明了这里的矛盾恰恰是在追求通用效率的结构化剪枝场景下其性能优势最容易被“从头训练海量数据”的模式所取代。07 结论一份给实践者的清晰指南这项研究的价值在于它超越了“剪枝好不好”的模糊讨论为“何时选择剪枝、选择何种剪枝”提供了一份清晰、数据驱动的决策指南。我们可以总结出两条非常实用的建议如果你的团队已经拥有一个强大的预训练大模型但用于下游任务的训练/微调预算有限那么剪枝是你的不二之选。它能最高效地利用父模型的知识让你在有限的Token预算内获得最强的小模型。这对于大多数资源不是无限的企业和研究团队来说是一个极具价值的结论。如果你的目标是训练一个标准架构的小模型并且你拥有海量的训练数据预算那么从头训练是一个完全可行且有竞争力的选项。在这种情况下你未必需要一个父模型作为“垫脚石”。最终这项工作将剪枝从一个单纯的“压缩工具”提升到了一个与“训练范式”息息相关的战略选择层面。它告诉我们大模型中蕴含的知识宝藏可以通过不同的方式被继承和利用而理解其中的边界和代价正是我们在大模型时代“降本增效”的关键所在。小模型不一定要从头练