【infra之路】Prefill和Decode是如何一起计算、为什么可以batch并行计算
因为它们本质上做的是同一件事——把 token 送进 Transformer 做 forward pass。从模型的角度看
不管 Prefill 还是 Decode,模型执行的计算是一样的:
输入 token → Embedding → 32层 Transformer → LM Head → logits区别只在于输入长度和 KV Cache 的…
2026/7/1 0:11:51