【信息科学与工程学】计算机科学与自动化——第三百零五篇 数据中心 Scale-Up、Scale-Out、Scale-Across 16

📅 2026/6/19 21:39:25
【信息科学与工程学】计算机科学与自动化——第三百零五篇 数据中心 Scale-Up、Scale-Out、Scale-Across 16
编号Scale领域链路问题问题的数学分析(逐步推理)参数列表/边界条件/方程式关联知识6271数据中心大模型推理大模型推理中推测解码的多候选验证策略?​1. 草稿模型生成K个候选序列,目标模型并行验证。2. 验证时,目标模型计算每个候选的logits,拒绝概率 preject​。3. 期望接受长度 E[L]=∑i=1K​i⋅(1−preject​)i⋅preject​。4. 加速比 S(K)=K⋅Td​+Tt​E[L]⋅Tt​​。5. 最优K使S最大,对K求导得数值解。6. 物理约束:目标模型显存需容纳K个候选的KV cache。preject​=0.2, Tt​=10ms, Td​=2ms。方程: E[L]≈4.5, 最优K≈6, 加速比≈2.8。推测解码,多候选,并行验证6272