软标签蒸馏中KL散度和CE的解释

📅 2026/6/26 6:10:23
软标签蒸馏中KL散度和CE的解释
真实分布 P 先以硬标签为例有一个样本 x比如一张猫狗图片它的真实标签是猫经过独热编码后猫 [1, 0, 0]狗 [0, 1, 0]鸟 [0, 0, 1]预测分布 Q—— 模型神经网络输出的 softmax[0.7, 0.2, 0.1]CE函数公式代入KL散度公式KL 0 → 两分布完全相同KL 0 → 预测分布偏离真实分布KL 衡量用 Q 代替 P 会损失多少信息如果教师模型不采用硬标签采用软标签比如[0.8,0.1,0.1]