当前位置: 首页> 健康> 母婴 > 重庆网站设计好的公司_东莞建域名网站_提升神马seo关键词自然排名_seo搜索引擎优化实战

重庆网站设计好的公司_东莞建域名网站_提升神马seo关键词自然排名_seo搜索引擎优化实战

时间:2025/7/11 20:01:40来源:https://blog.csdn.net/ChaneMo/article/details/144790888 浏览次数:0次
重庆网站设计好的公司_东莞建域名网站_提升神马seo关键词自然排名_seo搜索引擎优化实战

一、摘要

        本文介绍论文《DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter》,这篇NeurIPS 2019年的论文通过知识蒸馏的方式训练了一个DistilBert,为大模型的压缩和落地提供了可行思路。

3757177e47ca491892a7b52af8ca38fd.png

译文:

        随着大规模预训练模型的迁移学习在自然语言处理(NLP)中日益普及,在计算资源受限的边缘设备或预算有限的情况下运行这些大型模型仍然具有挑战性。在这项工作中,我们提出了一种预训练较小通用语言表示模型的方法,称为 DistilBERT。该模型在各种任务上经过微调后能达到与大型模型相当的性能。虽然先前的大多数研究集中在使用蒸馏构建特定任务模型,但我们在预训练阶段利用知识蒸馏,证明可以将 BERT 模型的大小减少 40%,同时保留其 97% 的语言理解能力,并且推理速度提高 60%。为了利用大型模型在预训练期间学到的归纳偏差,我们引入了一种结合语言建模、蒸馏和余弦距离损失的三元损失。我们更小、更快、更轻的模型在预训练时成本更低,并且我们通过概念验证实验和对比性的设备端研究展示了其在设备端计算的能力。

二、主要工作

1、模型架构

        论文中,学生模型DistilBert的结构与Bert的一致,不同之处在于作者去掉了token-type embeddings和pooler层,且DistilBert的层数是Bert的一半。此外,作者指出训练过程中的一个重要的内容就是为子网络找到合适的初始化状态,从而帮助收敛。因此,利用教师模型和学生模型都是Transformer的encoder块的特点,作者每隔一层就取一层教师模型的参数用来初始化学生模型。

2、损失函数

        论文中,学生模型使用一个被称为“distillation loss”的损失函数学习教师模型的软目标概率。公式如下:

eq?L_%7Bce%7D%20%3D%20%5Csum_%7Bi%7Dt_%7Bi%7D%20*%20log%28s_%7Bi%7D%29

        其中,eq?t_%7Bi%7D对应的是教师模型估计的概率,而eq?s_%7Bi%7D则对应学生模型估计的概率。此外,论文还参照Hinton的做法使用了一个softmax-temperature层来替换Softmax层,公式如下:

T%29%7D

        其中,T控制输出分布的平滑度,eq?z_%7Bi%7D是模型在第 i 类上面的得分。在训练的过程中,教师模型和学生模型使用相同的温度T,但在预测的时候,T的值则设为1,用于恢复成标准的Softmax。最终的训练目标是distillation loss和MLM训练loss的线性组合,而且作者还加入了余弦嵌入损失(cosine embedding loss,实际上就是利用余弦相似度来计算损失)来帮助对齐学生模型和教师模型各自隐藏状态向量的方向:

eq?Loss%20%3D%20L_%7Bce%7D+%20%5Calpha%20L_%7BMLM%7D%20+%20%5Cbeta%20L_%7Bcos%7D

3、知识蒸馏

        DistilBert在非常大的batch上进行,使用的是动态的Mask机制且取消了NSP任务。

4、语料

        DistilBert的预训练语料库与Bert相同都是英文的维基百科和Toronto Book语料库。

三、效果

        通过知识蒸馏技术,作者成功将DistilBert模型的大小减少为原始Bert的40%,同时保留了 97% 的语言理解能力,在 GLUE 基准测试等多个下游任务中表现得与Bert差不多,甚至在 STS - B等部分任务上比Bert还有显著的提升。最重要的是,在这样的测试表现下,DistilBert的规模更小,推理速度更快。

71a90c516a1f483fb641f1b36db2eaf8.png

 

关键字:重庆网站设计好的公司_东莞建域名网站_提升神马seo关键词自然排名_seo搜索引擎优化实战

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: