美团：DEAR精准蒸馏推理证据

📅 2026/7/1 14:31:28

标题Finding the Evidence: Discovering Decision-Supporting Tokens for On-Policy Reasoning Distillation来源arXiv, 2606.22830v1️文章简介研究问题在策略蒸馏中如何发现并转移那些学生模型自信但错误的实质性推理证据主要贡献提出DEAR方法通过两阶段机制同时捕获决策与证据token显著提升推理蒸馏效果。重点思路将推理链知识解耦为决策和证据两类指出仅靠熵选择只能捕获决策骨架而遗漏实质内容。第一阶段利用学生生成序列的熵值识别高不确定性位置将其作为推理决策锚点。第二阶段计算非决策token与决策锚点的隐藏状态余弦相似度以筛选共享推理上下文的证据。引入师生对数概率散度作为增强因子优先选择知识差距最大的证据token进行监督。构建混合评分函数结合语义相关性与知识缺口仅在选定的决策与证据集合上计算蒸馏损失。分析总结推理蒸馏信号极度稀疏前20%的token承载了约80%的梯度质量验证了选择性训练的必要性。高熵选择仅能覆盖39.1%的有效梯度信号而DEAR通过证据发现将覆盖率提升至75.8%。在数学竞赛基准AIME上DEAR相比标准OPD准确率提升超2倍且难题收益更显著。跨家族模型蒸馏时知识差距最大DEAR在该设置下获得了最高的绝对性能增益。代码生成任务中DEAR同样有效解决了标准OPD因噪声放大导致的性能退化问题。消融实验证实余弦相似度门控有效过滤了错误累积等噪声避免了单纯依赖散度的缺陷。个人观点论文是一种探针机制是一个启发式的token选择策略用高熵找摇摆不定的困难决策用教师和学生分布差异找错误用相关性找复用证据。

新闻详情

相关阅读

AI Agent智能体开发实战1

搜极星使用指南：四大功能模块的准确定位与选择路径

第一章Netty，Selector key cancel的机制

终极指南：如何使用ncmdumpGUI轻松解密网易云音乐NCM文件

2026 东莞阻尼转轴 旋转合页厂家 TOP10 完整榜单｜细分赛道实力排名 + 选型指南

安全测试实战：OWASP Top 10漏洞检测与防御全覆盖

ncmdumpGUI：免费解锁网易云音乐加密NCM文件的终极Windows图形界面解决方案

路由策略：网络控制的隐形指挥官

突破异构算力与协议壁垒：基于 Docker + GB28181/RTSP 的企业级 AI 视频管理平台架构演进与源码交付实践

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

2026 东莞阻尼转轴旋转合页厂家 TOP10 完整榜单｜细分赛道实力排名 + 选型指南