梁文锋署名论文，DeepSeek首轮融资后大动作：生成速度大涨85%

📅 2026/6/30 22:22:47

DeepSeek联合北大开源新成果。智东西6月27日报道继完成500亿元融资后今日DeepSeek首次放出开源新成果刚刚DeepSeek开源了一套让现有模型跑得更快的工程方案推出DeepSeek-V4-Pro-DSpark、DeepSeek-V4-Flash-DSpark模型并开源推测解码Speculative Decoding框架DSpark以及推测解码训练框架DeepSpec。▲DeepSeek-V4-Pro-DSpark开源上新页面截图根据同步上传的梁文锋署名、联合北京大学完成的论文《DSpark基于半自回归生成的置信度调度推测解码DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》将DSpark部署在DeepSeek-V4线上服务系统、承接真实用户流量时它有效减少了无效校验带来的算力浪费。相较于成熟的生产基线方案MTP-1在保持整体吞吐不变的前提下DSpark把单用户生成速度提升60%-85%。更关键的是在严格交互时延约束下DSpark避免了吞吐率大幅滑坡实现了以往无法达成的性能档位推高了整套服务系统的帕累托最优边界。▲DSpark论文截图Hugging Face地址https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSparkGitHub地址https://github.com/deepseek-ai/DeepSpec论文地址https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf根据Hugging Face上的模型卡DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark并非新模型而是在原有版本的基础上增加了一个推测解码模块用以加快推理速度、降低成本。推测解码简单来说是一种大模型推理无损技术核心流程为先打草稿、后验证。其将草稿生成与目标模型校验解耦以此加速大语言模型推理。当前主流并行草稿器能够单次前向运算生成超长token序列但由于token之间缺少依赖关系草稿后续内容的通过率会快速下滑。此外如果对整段长候选序列无差别校验会把宝贵的批次算力浪费在极易被驳回的token上从而导致高并发服务场景下整体吞吐率大幅下降。为此DeepSeek提出DSpark推测解码框架把高吞吐并行生成与自适应、感知负载的校验机制结合在一起。为保证草稿质量DSpark采用半自回归架构将并行主干网络与轻量串行模块相结合建模块内token依赖缓解末尾内容通过率衰减问题。▲DSpark架构与解码流程为优化系统运行效率DSpark引入置信度调度校验机制根据预估的前缀通过概率与引擎吞吐特征为每一条请求动态调整校验长度。在多领域离线基准测试中相比当前最优的自回归草稿器与并行草稿器DSpark能够显著提升有效通过序列长度。如下图所示针对这DeepSeek-V4-Pro-DSpark和DeepSeek-V4-Flash-DSpark两款模型DeepSeek提供了一个最小推理示例。▲DeepSeek提供的最小推理示例总的来说用户在部署DSpark版本的DeepSeek-V4模型后有望在生成速度、首token延迟、并发能力等方面获得体验提升。再来看看DeepSpec这是一个用于训练和评估推测性解码草稿模型Draft Model的全栈代码库或者说工具链它包含数据准备工具、草稿模型实现、训练代码和评估脚本支持MIT许可。▲DeepSpec开源上新页面截图DeepSpec的工作流程如下它会按顺序运行各个阶段每个阶段的输出为下一个阶段提供反馈:1、数据准备下载提示重新生成目标答案并构建目标缓存。2、训练针对缓存的目标输出训练一个模型。3、评估在基准任务上衡量推测解码的接受程度。目前DeepSpec支持的算法包括三个草稿模型DSpark、DFlash和Eagle3。DeepSpec团队还在最后向SpecForgeApache-2.0、DFlashMIT以及Qwen3和Gemma发文致谢。▲DeepSeek致谢情况可以看到DeepSeek不仅发布相关模型还开放完整的训练框架供开发者和企业用这套工具给自己的Qwen3、Gemma等模型训练草稿模型。结语推理重要度提高考验工程化能力DeepSeek本次发布虽然低调也不是新模型迭代但实际含金量不低。DeepSeek发布了一套让现有模型跑得更快的工程方案有望带来更快更低成本的推理体验并降低推测解码的落地门槛。大模型竞赛已进入训练与推理并重的系统博弈阶段。本次也是DeepSeek完成融资后率先落子推理优化赛道。战略意图也很明确不仅要加速模型迭代和产品化还要向下抢占算力效率竞争制高点。原文链接梁文锋署名论文DeepSeek首轮融资后大动作生成速度大涨85%-36氪

新闻详情

相关阅读

使用vmware安装openEuler22.03操作系统

GLM-5.2技术解析：智谱100万上下文开源模型的4个关键改进

人工智能数学入门 | 代数基础（1）

AI 编程这事，已经开始变味了

Android应用安全：为什么必须关闭allowBackup属性以防止数据泄露

TEA系列加密算法实战：从C到Python的跨平台轻量级实现

2026手机抠图软件合集：免费无水印App与轻量工具实操指南

原神玩家数据查询：3分钟掌握账号完整信息的终极工具

每天复制粘贴客户反馈？教你用个微自动汇总接口解放双手

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！