中企品牌网_做网站多少费用_做网站的流程与步骤_网络推广网站推广

时间:2025/8/26 1:33:52来源：https://blog.csdn.net/weixin_44659309/article/details/142390664 浏览次数:0次

LLM 推理的核心指标

首 Token 延迟（决定了用户体验）
延迟：从输入到输出最后一个 token 的延迟
吞吐量：每秒针对所有请求生成的 token 数（针对所有并发请求）

推理的性能卡点

1. KV-Cache 大小导致并发能力受限

LLM推理的过程是一个自回归的过程，前 i 次的token会作为第 i+1 次的预测数据送入模型，拿到第 i+1 次的推理token。

过程中Transformer会执行自注意力操作，为此需要给当前序列中的每个项目（无论是prompt/context还是生成的token）提取键值（kv）向量。这些向量存储在一个矩阵中，通常被称为kv cache。kv cache是为了避免每次采样token时重新计算键值向量。
请添加图片描述
对最大长度是 4096 的 LLaMa2-7B fp16 模型，服务端每创建 1 个并发，都需要大约 2GB 显存保存 kv_cache，即便是 A100 80G，能并发服务的用户也非常有限。

计算公式：
KV 缓存的总大小（以字节为单位）= （batch_size） * （sequence_length） * 2 * （num_layers） * （hidden_si

关键字：中企品牌网_做网站多少费用_做网站的流程与步骤_网络推广网站推广

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：