美团:DEAR精准蒸馏推理证据

📅 2026/7/1 14:31:28
美团:DEAR精准蒸馏推理证据
标题Finding the Evidence: Discovering Decision-Supporting Tokens for On-Policy Reasoning Distillation来源arXiv, 2606.22830v1️文章简介研究问题在策略蒸馏中如何发现并转移那些学生模型自信但错误的实质性推理证据主要贡献提出DEAR方法通过两阶段机制同时捕获决策与证据token显著提升推理蒸馏效果。重点思路将推理链知识解耦为决策和证据两类指出仅靠熵选择只能捕获决策骨架而遗漏实质内容。第一阶段利用学生生成序列的熵值识别高不确定性位置将其作为推理决策锚点。第二阶段计算非决策token与决策锚点的隐藏状态余弦相似度以筛选共享推理上下文的证据。引入师生对数概率散度作为增强因子优先选择知识差距最大的证据token进行监督。构建混合评分函数结合语义相关性与知识缺口仅在选定的决策与证据集合上计算蒸馏损失。分析总结推理蒸馏信号极度稀疏前20%的token承载了约80%的梯度质量验证了选择性训练的必要性。高熵选择仅能覆盖39.1%的有效梯度信号而DEAR通过证据发现将覆盖率提升至75.8%。在数学竞赛基准AIME上DEAR相比标准OPD准确率提升超2倍且难题收益更显著。跨家族模型蒸馏时知识差距最大DEAR在该设置下获得了最高的绝对性能增益。代码生成任务中DEAR同样有效解决了标准OPD因噪声放大导致的性能退化问题。消融实验证实余弦相似度门控有效过滤了错误累积等噪声避免了单纯依赖散度的缺陷。个人观点论文是一种探针机制是一个启发式的token选择策略用高熵找摇摆不定的困难决策用教师和学生分布差异找错误用相关性找复用证据。