DART:采样两份草稿估计思考预算,节省 67% token 效果还更好 📅 2026/6/30 23:08:46 一句话总结混合推理模型可以直接回答问题也可以深度思考后再作答但实际应用时到底该选那种现有方案一般让用户选择或者额外训练路由器DART 的做法却是极度的简单有效先采两份 nothink 草稿根据他俩的一致性判断是否需要思考再利用熵来推测思考预算不仅节省了 5.7× token效果甚至还比 always-thinking 更好论文标题DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models论文地址https://arxiv.org/abs/2606.23181作者背景高丽大学等一、动机Qwen3、DeepSeek-V3.2 这类混合推理模型都提供了快速回答和思考模式实践时可能会遇到问题思考成本简单题也会花上千 token 做链式推理计算量和延迟都剧增过度思考研究表明强制思考有时还会拉低准确率模型想太多导致偏移固定预算两难给少了难题写不完答案给多了简单题全浪费现有解决方案基本上都是做一个路由器控制问题该走思考模式还是快速回答或者更细致地控制思考强度而路由器一般通过两类方式得到专门训练利用 MLP / GBT 等模型收集带标签的难度数据。缺点是与模型能力与业务场景耦合换模型、换场景就要重训启发式基于置信度 / 熵等推理信息启发式判断当前问题是否有必要做思考。缺点是实测效果较差尤其是在代码场景可见当前的核心问题是缺少直接的 “答案级证据” 来判断思考策略够不够用二、方法DART (Draft-Agreement Routing for Thinking) 分两个阶段核心思路极其简单2.1 一致性路由对输入 query在 nothink 模式下独立采样 K2 份草稿temperature0.6用任务相关的等价函数数学用字符串归一化代码用沙箱执行比较两份草稿的答案一致则接受直接输出答案。这里要根据问题领域定好 “一致” 的判定规则比如数学题就看结果数字、代码就看执行结果不一致则送入后续阶段见下一小节为什么只要 2 份草稿消融实验表明K3 时多花 22% token 只多 0.5 分K4 反而回落到 88.5概率直觉如果模型给某个答案分配的概率是 p两次独立采样恰好都落在这个答案上的概率 ≥ p²。简单题 p 接近 1两份草稿几乎一定给出相同的正确答案难题概率分散在多个候选上两次撞到同一个答案很难自然被路由到 think2.2 思考预算于其他启发式思考预算规划方法类似作者也利用模型推理时的熵来估算需要多大程度的思考。为了建立 “熵 → 思考长度” 的映射关系作者准备一份与测试集不重叠的校准集分析它们推理时的平均 token 熵在 K 份草稿的所有位置上取均值利用保序回归要求 “输入越大输出不减”拟合出单调的映射关系如下图所示保险起见拟合函数在使用时还乘以一个安全系数γ1.5作为冗余确保思考预算充足。当思考达到预算后直接注入/think答案在独立的 completion call 中生成三、实验结果3.1 基准测试对照组包括Not Think全部不思考、Always Think全部思考、SC-Route一致性路由不一致则回退到 AT测试指标为各回答问题的准确率与思考 token 效率Route 指的是草稿接受率即直接回答问题的占比结果表明在大部分实验组合中DART 都在显著优化思考效率的前提下超过了 AT全部走思考模式3.2 Token 效率DART 在 MATH-500 上平均只用约 2.8K thinking tokens 就拿到 88.2%而 AT 需要约 16K budget 才达到 85.6%。即 DART 拿到了 5.7 的思考 token 缩减准确率还更高以单次 AT 协议作为部署成本参照MATH-500 上 DART 平均 3.5K vs AT 5.4K总 token 减少 35%HumanEval 上缩减 55%因为大量代码题被一致性路由的草稿直接解决3.3 路由策略对比启发式方案多数投票MV-3/5/7与模型自行判断要不要 thinkMC-Binary在数学题上还能凑合文本级投票在代码上彻底失效监督学习收集 250 条有标签样本训练的 MLP/GBT特征包括草稿熵、草稿长度、草稿一致性等训练后的效果尚可但没打过 DART。分析特征贡献度发现草稿一致性的特征权重非常高所以直接把这一特征当门控来使用的 DART 方法效果更好3.4 跨难度、跨规模测试一致性路由中的草稿接受率随难度单调递减而接受精度始终保持 83.8%-95.5%在 0.6B-32B 尺寸的 Qwen3 模型上测试可见0.6B-4B 小模型的 nothink 能力本身不足被路由出去的简单题也答不对8B 以上 DART 才能稳定匹配 AT四、局限选择题不适用4 选 1 碰撞概率 ≥ 36%一致性失去判别力需要合适的等价函数新领域需要定义合适的 eq 函数需要 logits budget 控制某些 API 可能不支持