vllm与sgLang

📅 2026/7/2 4:03:32
vllm与sgLang
一、基本概念先看kvcache概念可以看作模型的短期记忆模型每生成一个新词就疯狂吃gpu显存1、对于vLLM框架有PagedAttention:按需分配、非连续存储的方式PagedAttention把每个请求的 KV Cache 切割成固定大小的“块Block”。这些块在物理显存中不需要连续存储系统只需维护一个“块表Block Table”来记录逻辑块与物理块的映射关系。优势按需分配、非连续存储提升显存利用率2、SGLang有RadixAttention它引入了一种叫基数树Radix Tree的数据结构来管理 KV Cache在实际业务中比如多轮对话、少样本学习或思维树搜索很多请求之间拥有大量相同的前缀当新的请求进来时系统会自动识别它是否包含已有的公共前缀。如果有就直接复用树上已经计算好的 KV Cache只计算新增的部分。优势跨请求的前缀共享机制消除了大量的重复计算二、两种框架的最佳使用场景vllm sglang tensordt-llm区别