同一段vec_dot，AVX2 / VNNI / NEON / WASM 四条 SIMD 路径：为什么预填充能拉开 4 倍，解码却几乎一样快？

📅 2026/6/30 3:23:10

把 llama.cpp 编译出 AVX2 和 AVX-512 VNNI 两个版本，拿同一个 7B Q4_0 模型跑llama-bench，你会看到一组分裂的数字：prompt eval（预填充）那一栏，VNNI 比 AVX2 快 43%；token generation（解码）那一栏，两者几乎贴在一起，差不到 5%。同一段热点代码、同一颗 CPU、同一个量化格式，SIMD 指令换了一档，一半场景起飞、另一半场景纹丝不动。这不是测试出错。这是 SIMD 在量化推理里真实的作用边界——它能不能帮到你，取决于你在哪一侧撞墙：算力墙，还是内存带宽墙。一个性能工程师如果在动手之前没把这堵墙认清楚，很容易花一周时间把vec_dot抠快 30%，最后端到端只快了 2%，然后对着 profile 发懵。更有意思的是，这四个平台的实现差异，几乎是一部浓缩的"指令集如何为深度学习让路"的历史。x86 从凑合用多媒体指令maddubs，到专门为神经网络造的 VNNI；ARM 从老核只能vmull硬凑，到 dotprod 一条 SDOT 搞定、再到 i8mm 把矩阵乘塞进单指令；WASM 则卡在最朴素的 128 位基线上，连融合点积都还在提案里。同一个 int8 点积，四个平台用四套指令、四种代价实现，把各家指令集的代际差距摊在了同一段代码上——这本身就是一个绝佳的观察样本。下面我们把这条被调用上亿次的热点路径ggml_vec_dot_q4_0_q8_0，在 x86 AVX2、AVX-512 VNNI、ARM NEON、WebAssembly S

新闻详情

相关阅读

USB3.0驱动下载教程 3种实用方案快速搞定

一网推GEO抢占本地AI流量新高地

Mac 储存空间清理实测：我按这套流程走了一遍，BuhoCleaner 到底能省多少事？

专科大数据专业怎么专升本？升学路径+志愿规划+能力提升全攻略

WhatsApp验证码收不到别砸手机！六大死穴七招破解

终极SPT-AKI存档编辑器：5分钟掌握逃离塔科夫离线版完整修改指南

K8s 多 Master 重启：流程梳理与问题排查

技能文件格式与解析

Python一行代码，让你好秒变你好，爽到飞起

AScript异步执行与await关键字

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

NoFences：你的Windows桌面需要一场空间革命吗？

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！