当前位置: 首页> 科技> 互联网 > 模型蒸馏(distillation)

模型蒸馏(distillation)

时间:2025/7/13 22:17:45来源:https://blog.csdn.net/smartcat2010/article/details/139299562 浏览次数:4次

大size的teacher模型,训练的样本,最后一层softmax之前的logits,当作student模型的训练目标,损失函数是2个向量的距离;

原理:logits包含更多的信息,比label(也就是1-hot vector)的信息量更大;

student也可以加上对teacher中间层feature的学习;(模型size不同的话,不好办)

一般是先训练完毕teacher模型,再开始训student模型;

也有两者同时一起训练的;

知识蒸馏:

通过很多prompts,把GPT-4的answer记录下来;用于训练自己的大模型;

关键字:模型蒸馏(distillation)

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: