ODCC 携手 NVIDIA、XSKY 等发布 KV Cache 全场景测评报告

📅 2026/7/3 4:47:54

随着大模型推理需求爆发式增长KV Cache 存储已成为 AI 基础设施的核心瓶颈之一。为系统评估 KV Cache 专用存储方案的技术成熟度与场景适配能力开放数据中心委员会ODCCAI 存储实验室联合 XSKY 星辰天合基于NVIDIA 计算与网络平台、大普微 SSD 硬件完成了面向多形态部署、多模型架构、多存储策略的 KV Cache 存储系统全面评测。本次测试以 XSKY 星飞推理存储系统 MeshFusion 为评测对象验证其在推理场景下的性能表现与规模化落地能力。作为 AI 基础设施创新公司XSKY 星辰天合致力于打造高性能、可扩展的全链路 AI 数据底座自研 MeshFusion 星飞推理存储系统直击 KV Cache 痛点。本次 ODCC 评测充分验证了其架构创新与生态适配能力可为智算及大模型企业提供高性价比的推理存储解决方案。测试方案多种部署形态覆盖多元场景XSKY 星飞推理存储系统 MeshFusion 是专为推理场景设计的存储扩展系统围绕 KV Cache 的数据特征进行深度自研兼顾 G3 本地盘共享能力与 G4 高速访问性能并兼容主流算力生态。系统采用极简基础架构设计融合智能网络引擎原生支持 KV Cache 接口具备良好的可扩展性与适配性。在部署方式上MeshFusion 支持多种灵活形态直接嵌入现有 GPU/NPU 服务器系统可复用服务器自带的闲置 NVMe 盘通过高速 RDMA 组建集群级共享 KV Cache 存储池打破本地 SSD 的孤岛限制。该方式无需额外采购独立存储服务器改造投入低适用于已有算力集群的轻量化升级。部署于 DPU 速卡在此模式下KV Cache 数据流绕过主机 CPU 与内存经由 DPU 直达 GPU 显存实现 CMX 近存计算架构。配合 JBOF 全闪硬件构建大容量高速共享存储池并依托 Spectrum-X 高速网络可满足推理任务对高带宽、低延迟的严苛要求尤其适合中大型规模化推理 Token 工厂的部署需求。独立集群部署基于该系统可独立构建专用的存储集群能够高效承载海量训练数据集与推理过程中的 KV Cache为企业 AI 基础设施提供高性能、可扩展的统一存储底座。图1 MeshFusion架构图测试环境一套环境验证多种方案总体概述本次测试聚焦于验证推理过程中 Prefill 阶段及 Prefill-Decode 混合阶段的性能表现覆盖 DeepSeek-R1、Qwen3-235B、DeepSeek V4 与 GLM-5.1 等主流大模型。在推理架构层面测试同时纳入了 PD 一体与 PD 分离两种主流方案以评估不同调度策略下的效率差异。硬件配置上测试选用高端 HBM GPU 服务器与中端 GDDR GPU 服务器两类算力节点以兼顾高吞吐与高性价比的部署需求存储系统除采用传统 X86 存储服务器外还引入了基于 NVIDIA BlueField-3 DPU 的 JBOF 全闪硬件着力探索类似 NVIDIA CMX 的前沿近存计算架构。上述多维度的组合设计有效覆盖了业界当前主流以及未来演进中的各类硬件部署形态为推理存储系统的实际选型提供了坚实的数据支撑。图2 测试环境网络拓扑架构图方案介绍本次测试具有四种方案组合具体如下表所示。A高端 HBM GPU 服务器 X86 存储服务器验证 MeshFusion 在“独立集群部署”下的 KV Cache 卸载性能。图3 方案A拓扑架构图B1高端 HBM GPU 服务器JBOF 节点验证 MeshFusion 在“BlueField-3 DPUJBOF 部署(NVIDIA CMX 架构)”下的 KV Cache 卸载性能。图4 方案B1拓扑架构图B2中端 GDDR GPU 服务器JBOF 节点验证 MeshFusion 在使用“NVIDIA GDRGPUDirect RDMA”下的 KV Cache 卸载性能。图5 方案B2拓扑架构图C高端 HBM GPU 服务器中端 GDDR GPU 服务器X86 存储服务器验证 MeshFusion 在“PD 分离场景”下的 KV Cache 卸载性能。其中 P 节点和 D 节点之间的 KV Cache 传输使用 NixlConnectorKV Cache 卸载使用 MeshFusion SDK。图6 方案C拓扑架构图核心成果创新架构国内领先国内首个实现类似 NVIDIA CMX 架构的 KV Cache 存储方案基于 XSKY MeshFusion 的轻量化架构将其部署于 BlueField 3 DPU 中实现了 KV Cache 数据与 GPU 显存的直通架构如图 7 所示。图7 DPUJBOF部署架构图在此架构上本次测试以方案 B1 为基础针对 JBOF 存储后端开展了 Prefill-only 场景的测试重点对比 KV Cache 命中Warm与重算Cold的性能差异。结果表明卸载 KV Cache 带来的收益极为显著TTFT 从数十秒锐降至命中后的百毫秒甚至数秒尤其在长序列场景中降幅最大而吞吐量TPS则整体提升了一个数量级达 10 至 28 倍在 Cache 命中时普遍稳定在 7 万至 10 万 Tokens/s。上述数据充分证明基于 DPUJBOF 构建的、形态类似 NVIDIA CMX 的存储架构能够高效承载 KV Cache 卸载为企业 AI 推理提供坚实的性能支撑测试数据详见图 8。图8 JBOF后端·Prefill-only: Cold vs Warm性能对比DeepSeek-R1,EC 42:1,1.6T为验证基于 DPU 的 JBOF 后端能否等效替代 X86 存储后端AI 存储实验室在相同条件下对方案 AX86与方案 B1JBOF进行了 Prefill-only 以及 Prefill-Decode 一体对比测试结果分别如图 9 和图 10 所示。在 Prefill-only 测试中两者的 TTFT 加速比与 TPS 加速比高度接近在 KV Cache 卸载负载下性能表现基本持平由此充分证明基于 DPU 的 JBOF 后端完全可作为 X86 存储的可靠替代方案为实际部署提供了更具灵活性的硬件选择。图9 X86 vs JBOF后端·Prefill-only: 加速比对比DeepSeek-R1,EC 42:1,1.6T在 Prefill-Decode 一体测试中以每秒完成请求数req/s衡量端到端吞吐X86 存储后端与 JBOF 后端的加速比依然相似。这进一步说明 JBOF 后端在真实推理负载含 Decode 阶段下同样可用。图10 X86 vs JBOF后端·Prefill-Decode: req/s加速比对比DeepSeek-R1,EC 42:1,1.6T在方案 B2 的基础上本次进一步开展了 GPUDirect RDMAGDR技术的 KV Cache 卸载测试Prefill‑Only 场景。通过在 GPU 服务器部署 Qwen3‑235B 模型进行推理并在 4 块 BlueField‑3 DPU 上安装 MeshFusion SDK构建 GDR 直通链路。本次测试着重对比了 KV Cache 命中Warm/Run2与重算Cold/Run1的性能。结果表明吞吐量TPS从重算时的约 800 tokens/s 跃升至命中后的 4 万 tokens/s 以上如图 11 和图 12 所示。这一结果充分验证了 GDR 读写路径打通后KV Cache 卸载在 GPUDirect 方案下能够带来数量级的性能收益证明该技术路线在高效推理场景中的巨大潜力。图11 GDR方案·Prefill-only: Cold vs Warm性能对比Qwen3-235B,RTX6000 DPUJBOF,4GPU4DPU图12 GDR方案·Prefill-only:KV Cache卸载加速比Qwen3-235B,长序列峰值58×基于 BlueField-3 DPU 的 JBOF 的成功可以证明 XSKY MeshFusion 具备平滑移植到 NVIDIA CMX 平台的能力发挥出分布式 KV Cache 存储软件更大性能潜力。基于 NVIDIA Spectrum-X 网络存储与网络栈无明显软件瓶颈扩展性可预测本次测试基于 NVIDIA Spectrum-X 网络环境结果表明集群 EC 顺序读性能达 272.1 GiB/s占三台存储节点网络物理极限的 97.4%单客户端 EC 顺序读在 1.6T 条件下亦达到 167.0 GiB/s为单机网络极限的 89.7%。两者均逼近各自的物理上限充分证明存储软件栈能够高效压满 RDMA 网络不存在明显的软件层瓶颈。此外带宽容量可按网口数量线性规划这一特性为大规模部署场景下的硬件选型与成本测算提供了可靠的量化依据。图13 EC 1M顺序读达成率集群vs单客户端在此展示 3 台存储节点的 6 个 RDMA 网口400G的带宽监控可以看到网口带宽达到 46 GiB/s接近打满网卡物理带宽。图14 带宽监控图截选国内领先的支持混合注意力大模型的 KV Cache 存储方案随着 DeepSeek-V4 、GLM-5.1 等采用混合注意力架构的模型兴起其 KV Cache 结构与传统 MHA/GQA 显著不同。本次测试结果表明KV Cache 卸载后命中吞吐均远高于重算V4-Flash 的命中吞吐稳定在 4 万–6 万 Tokens/s吞吐加速比是 6.6 倍GLM-5.1 更高、峰值超过 15 万 tokens/s吞吐加速比是 57.4 倍。这证明存储侧能正确处理混合注意力模型的异构 KV 布局并保持高卸载收益。图15 混合注意力模型·Prefill-only: Cold vs Warm性能对比X86,EC,1.6TEC 纠删码和单副本在 KV Cache 卸载场景无性能差距在方案 A 的 Prefill‑only 与 Prefill‑Decode 两类测试场景中本次测试对比了“EC 42:1 纠删码”与“单副本”存储策略下的性能表现。结果表明两者的 TTFT 加速比与 TPS 加速比均无明显差异因此生产部署可直接采用 EC 纠删码策略在不牺牲推理性能的前提下同时获得更高的存储容量利用效率与数据可靠性。进一步地在 EC 策略下KV Cache 卸载带来的收益依然显著命中Warm相比重算ColdTTFT 从数十秒降至百毫秒或数秒长序列场景下降幅最大吞吐TPS提升一个数量级10 倍32 倍命中时普遍达到 7 万至 11 万 Tokens/s。该结果充分证明即便在纠删码带来的额外计算与存储开销下KV Cache 卸载的收益仍能得到完整保留为实际生产环境中兼顾性能与可靠性的存储选型提供了有力支撑。图16 X86后端·EC 42:1·Prefill-onlyCold vs Warm性能对比DeepSeek-R1,1.6T在 Prefill-only 场景下“单副本”与 “EC 纠删码”的 TTFT 加速比和吞吐TPS加速比逐场景互有高低、整体持平。这两种存储策略在卸载场景下性能无可辨别差距。图17 X86后端·单副本vs EC·Prefill-only加速比对比在 Prefill-Decode 测试中以每秒完成请求数req/s衡量端到端吞吐“单副本”与 “EC 纠删码” 的 req/s 加速比同样接近逐场景方向随机。图18 X86后端·单副本vs EC·Prefill-Decodereq/s加速比对比NVIDIA Spectrum-X 网络高级特性对于 KV Cache 卸载性能的影响本次测试基于 Spectrum-X 网络的高级特性重点评估了 Adaptive Routing 与 Spectrum-X Congestion Control 功能对推理性能的影响。在 Qwen3‑235B 模型、2K 输入长度及 256 高并发的 Prefill‑only 场景下以关闭 ARCC 为基线对比了开启 ARCC 后 KV Cache 命中Warm路径的性能。结果表明开启 ARCC 后吞吐量与请求吞吐均提升约 22.7%首 Token 延迟TTFT改善约 18.7%充分验证了 Spectrum-X 网络高级特性在提升推理效率方面的积极作用。图19 Spectrum-X ARCC vs noARCC: Warm (命中)路 KV Cache卸载性能网络带宽对于推理性能的影响本次测试验证 GPU 服务器使用 1.6T/800G/400G 存储网络下 KV Cache 卸载性能Prefill-only 测试。测试结果表明1.6T 与 800G 两档存储网络性能基本贴合且维持高位而 400G 始终垫底。400G 相对 1.6T 的吞吐比值随 Input 增长从 79%单调下滑至 55%。说明请求上下文越长、单请求 KV Cache 越大400G 单口带宽越成为瓶颈。而 800G 已能满足当前负载、受限于当前 GPU 规格算力制约 4×400G 的边际收益有限。图20 存储网络带宽影响Input越长400G越受限(R1,EC,Prefill-only,Warm)本次测试也验证了 2 台 GPU 服务器使用 800G/400G 计算网络下的 PD 分离测试的性能。在 PD 分离架构下P 节点和 D 节点间传输 KV Cache 的计算网络从 400G 升级到 800G 后TTFT 加速比与吞吐加速比逐场景显著提升800G 普遍约为 400G 的 1.7 倍TTFT和 1.5 倍TPS。说明对依赖 PD 间 KV Cache 传输的场景提升计算网络带宽可带来明显的端到端性能收益。图21 计算网络带宽影响PD间KV Cache传输800G vs 400G(DeepSeek-V4-Flash, Prefill-only)总结展望以创新架构推动多元场景落地本次测试基于 NVIDIA 计算与网络平台系统覆盖 X86 存储服务器与基于 BlueField-3 DPU 的 JBOF类似 NVIDIA CMX 架构两类存储后端同时验证了“单副本”与“EC 纠删码”两种存储策略并选取 DeepSeek-R1、Qwen3-235B、DeepSeek-V4混合注意力、GLM-5.1混合注意力等多款主流大模型作为测试负载力求全面评估方案在不同硬件形态与模型架构下的适配能力与性能表现。作为 ODCC AI 存储实验室的重要实践本次测试不仅验证了 KV Cache 专用存储系统在推理场景下的技术可行性与性能优势也为 AI 基础设施的标准化建设与产业落地提供了可复用的测试方法论与参考基准。未来XSKY 将持续深耕 AI 存储底层技术创新持续迭代 MeshFusion 系列产品推动 KV Cache 存储方案的标准化与规模化落地携手生态伙伴共同加速智算产业的创新与发展。

新闻详情

相关阅读

2026年必买清单：高性价比苦荞米，健康美味两不误

【Java课程设计/毕业设计】基于 SpringBoot 的高校学生组织综合运维管理系统的设计与实现 校园学生组织资料与活动一体化管理系统【附源码、数据库、万字文档】

【计算机Java毕业设计案例】基于 SpringBoot 的高校学生组织资源资料整合系统的设计与实现 基于 SpringBoot 的校园学生活动策划与落地管理系统(程序+文档+讲解+定制)

第三次作业：学习笔记

测试20万qps的web接口（一）

Opencv4.10编译成mingw动态链接库

DeepSeek V4 已上线硅基流动（SiliconFlow），可接入 Claude Code 使用

水下机器人海洋环境测速选啥？偶信DVL 600K适配各类水下作业工况吗？

13-MCTrack:面向自动驾驶领域的统一三维多目标跟踪框架

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

AI Agent五大设计模式解析与实战优化

AutoRaise终极指南：3分钟掌握macOS鼠标悬停自动激活窗口技巧

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

【Java课程设计/毕业设计】基于 SpringBoot 的高校学生组织综合运维管理系统的设计与实现校园学生组织资料与活动一体化管理系统【附源码、数据库、万字文档】

【计算机Java毕业设计案例】基于 SpringBoot 的高校学生组织资源资料整合系统的设计与实现基于 SpringBoot 的校园学生活动策划与落地管理系统(程序+文档+讲解+定制)