32 卡 H800 使用 vLLM 部署 GLM-5.2 BF16:显存计算、`--max-model-len` 估算与完整部署教程
32 卡 H800 使用 vLLM 部署 GLM-5.2 BF16:显存计算、--max-model-len 估算与完整部署教程
一、先说结论
在 32 张 H800 80GB、--gpu-memory-utilization 0.80、vLLM 部署 GLM-5.2 BF16 的前提下:
1. 模型理论最大上下文
GLM-5.2 原生最大上下文是: 1048576 1048576 1048…
2026/6/28 1:09:01