开源大模型本地部署硬件选型深度指南

📅 2026/7/5 5:29:01
开源大模型本地部署硬件选型深度指南
作者:SkySeraph原始链接:llm_locally日期:2026-05-17数据截至 2026-05-17本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理,价格/供货信息请以官网当日为准。1. 选型四坐标与容量公式绝大多数“该买哪块卡”的纠结,都是因为没把需求拆清楚。真实选型只看四个量:坐标关键指标决定什么显存/统一内存容量GB能装下多大模型、多长 KV Cache显存带宽GB/s解码阶段 tokens/s 的天花板算力(FP8 / FP4 TFLOPS)T首 token 延迟 (TTFT) 与 prefill 吞吐互联(NVLink / NVLink Switch / UB / PCIe)GB/s多卡/多机能否线性扩展解码阶段 tok/s 的经验公式(内存带宽受限时成立):tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)例:Qwen3-32B 权重 BF16 ≈ 64GB,INT4 ≈ 16GB;RTX 5090 带宽 1.79TB/s,理论上限 ≈ 1790/16 ≈ 112 tok/s,vLLM 实测 80–95 tok/s,吻合。公式本身是 roofline 在 memory-bound 阶段的简化,详见PagedAttention 论文与SGLang RadixAttention 论文。Prefill 阶段由算力决定,tok/s 正比于 TFLOPS / (2 × 激活参数量);长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见vLLM 文档。2. 硬件全景深度对比2.1 Apple Silicon:Mac Studio 产品线Apple Mac Studio 历代 Ultra 芯片内存上限对比:芯片发布最大统一内存内存带宽备注M2 Ultra2023.6192 GB800 GB/sMac Studio / Mac ProM3 Ultra2025.3192 GB800 GB/sMac Studio / Mac ProM4 Ultra2025.3192 GB546 GB/sMac Studio / Mac Pro来源:Apple Mac Studio 规格页、Apple M4 Ultra 规格(cpu-monkey)、Wikipedia M3 Ultra注意:M2 Ultra Mac Studio 支持最高192 GB,不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息,已更正。Mac Pro(M2 Ultra)支持最高192 GB;如需更大内存跑超大模型,目前 Apple 生态无单机超过 192 GB 的消费级方案。M4 Max MacBook Pro:128 GB 上限,546 GB/s,见Apple MacBook Pro软件栈:MLX、llama.cpp Metal、Ollama、LM Studio能跑的极限负载(社区实测,192 GB 上限):Qwen3-235B-A22B Q4(~120 GB):192GB 机型可装下,约25–30 tok/s,见LocalLLaMA 实测线程Llama-3.3-70B Q4(~40 GB):约12–18 tok/sDeepSeek-V3/R1 671B Q4_K_M(~380 GB):192 GB 装不下,需要多机或其他方案M3 Ultra vs M4 Ultra 选择:两者内存上限相同(192 GB),M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s,推理速度 M3 Ultra 更快M4 Ultra CPU/Neural Engine 更新,编译/微调任务更快起价均约US$ 3,999(Apple 官网)不适合:长上下文 prefill 慢(compute-bound),128K ctx 首 token 几十秒级并发差,单 batch 天然状态,上 vLLM/SGLang 无收益无 CUDA,绝大多数训练/微调工具链走弯路无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型2.2 NVIDIA 消费级:RTX 4090 / RTX 5090项RTX 4090RTX 5090架构Ada (AD102)Blackwell (GB202)显存24 GB GDDR6X32 GB GDDR7带宽1,008 GB/s1,792 GB/sFP8 / FP4 TFLOPS660 / —3,352 / 6,704(含稀疏)TDP450 W575 WMSRPUS$ 1,599US$ 1,999国内参考价¥12–18k(二手)/ ¥18–22k(新)¥20–25k(AIB 版)官方规格:RTX 4090、RTX 5090。国内价格参考中关村在线,因关税/汇率波动请以当日电商报价为准。整机 TCO 估算(3 年,含电费):配置硬件成本满载功耗3 年电费(¥0.8/kWh,IDC)3 年总成本1× RTX 5090 + 主机~¥30k~700W~¥1.5k~¥31.5k2× RTX 5090 + 主机~¥55k~1,400W~¥3k~¥58k实测(vLLM / TensorRT-LLM):5090 单卡 Qwen3-32B AWQ-INT4:单流 ~85 tok/s,batch 8 合计 ~340 tok/s(vLLM benchmark 脚本)4090 单卡 Qwen3-14B FP8:~120 tok/s 单流2× 5090 张量并行:Blackwell 消费卡无 NVLink,走 PCIe 5.0 x16,70B Q4 双卡 ~40–55 tok/s不支持 MIG / vGPU,不能切卡做多租户(NVIDIA vGPU 支持矩阵)坑:575W 对家用电源/散热是硬门槛,2 卡起必须 1600W+ 钛金电源 + 开放式机架消费卡NVIDIA Driver EULA禁止数据中心部署(出海 SaaS 要注意)2.3 NVIDIA 工作站级:RTX PRO 6000 Blackwell2026 H1单机本地部署最甜的卡。96 GB GDDR7 ECC,带宽1,792 GB/s,AI 算力4,000 TOPS来源:NVIDIA 官方产品页300W TDP(工作站版主动散热;Server Edition 被动散热,需机箱风道)来源:TechPowerUp 规格页支持MIG(4 分区)、vGPU、ECC,规格见官方产品页MSRPUS$ 8,999(2025.3 上市,国内含税约 ¥75–90k,以当日电商报价为准)来源:TechPowerUp、Newegg 在售页整机 TCO 估算(3 年,含电费,IDC 电价 ¥0.8/kWh):配置硬件成本(含整机)满载功耗3 年电费3 年总成本1× PRO 6000 整机~¥22 万~500W~¥1.1 万~¥23 万2× PRO 6000 整机~¥35 万~800W~¥1.7 万~¥37 万单卡可跑:Llama-3.3-70B FP8(~70GB) → ~55 tok/s 单流,batch 32 稳态 ~600 tok/sQwen3-72B FP8 单卡放下,~50 tok/s 单流,batch 32 稳态 ~550 tok/sDeepSeek-R1-Distill-Llama-70B FP8 单卡128K 长上下文 KV Cache 游刃有余(vLLM 长上下文指南)并发能力参考(Qwen3-72B FP8,vLLM,TTFT p95 ≤ 500ms):并发用户数稳态 tok/s说明5~250轻松,有大量余量20~500舒适区,推荐日常生产50~580接近上限,队列开始积压100+需 2 卡单卡 KV Cache 不足双卡(2× = 192GB):DeepSeek-V3 671B INT4(~335GB)放不下Qwen3-235B-A22B INT4(~120GB)可以,TP=2 单流 60–80 tok/s,batch 32 稳态 ~1,200 tok/s,支持 ~100 并发工作站版与数据中心版(RTX PRO 6000 Blackwell Server Edition,被动散热)区别见NVIDIA PRO GPU 对比。2.4 NVIDIA 数据中心:H100 / H200 / B200 / B300卡显存带宽FP8 / FP4 TFLOPS单卡价官方链接H100 SXM5 80GBHBM33.35 TB/s1,979 / —~$25kH100H100 NVL 94GBHBM33.9 TB/s1,979 / —~$30k同上H200 SXM 141GBHBM3e4.8 TB/s1,979 / —~$30kH200B200 SXM 192GBHBM3e8 TB/s4,500 /9,000~$35–40kBlackwell 架构B300 SXM 288GBHBM3e~10 TB/s~5,500 / ~11,000~$40–45kB300 发布GB200 / GB300 NVL72:超节点架构,把 72 颗 Blackwell GPU 通过NVLink Switch做成"单机",总显存