模型蒸馏(distillation)

时间:2025/9/3 14:11:10来源：https://blog.csdn.net/smartcat2010/article/details/139299562 浏览次数:4次

大size的teacher模型，训练的样本，最后一层softmax之前的logits，当作student模型的训练目标，损失函数是2个向量的距离；

原理：logits包含更多的信息，比label(也就是1-hot vector)的信息量更大；

student也可以加上对teacher中间层feature的学习；（模型size不同的话，不好办）

一般是先训练完毕teacher模型，再开始训student模型；

也有两者同时一起训练的；

知识蒸馏：

通过很多prompts，把GPT-4的answer记录下来；用于训练自己的大模型；

关键字：模型蒸馏(distillation)

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：

>> 相关文章

>> 热门图片

>> 热门搜索

评论排行

图片新闻

点击排行