读完这篇,你能徒手写出与 llama.cpp 输出完全一致的 4-bit 量化代码

📅 2026/6/25 17:14:50
读完这篇,你能徒手写出与 llama.cpp 输出完全一致的 4-bit 量化代码
几乎每篇讲量化的文章都会先甩两个公式:量化q = round(x / scale),反量化x = q · scale + offset。背下来,你以为自己懂了量化。把这两个公式拿去读 llama.cpp 里真正跑在你显卡上的 Q4_0 代码,你会发现没有一项对得上:没有round(),scale 是个负数(max / -8),而 offset 压根不存在。更怪的是下面这条语句——constuint8_txi0=MIN(15,(int8_t)(x0+