开源大模型本地部署硬件选型深度指南

📅 2026/7/5 5:29:01

作者：SkySeraph原始链接：llm_locally日期：2026-05-17数据截至 2026-05-17本文基于截至 2026 年 5 月的公开资料与业内已验证的实测数据整理，价格/供货信息请以官网当日为准。1. 选型四坐标与容量公式绝大多数“该买哪块卡”的纠结，都是因为没把需求拆清楚。真实选型只看四个量：坐标关键指标决定什么显存/统一内存容量GB能装下多大模型、多长 KV Cache显存带宽GB/s解码阶段 tokens/s 的天花板算力（FP8 / FP4 TFLOPS）T首 token 延迟 (TTFT) 与 prefill 吞吐互联（NVLink / NVLink Switch / UB / PCIe）GB/s多卡/多机能否线性扩展解码阶段 tok/s 的经验公式（内存带宽受限时成立）：tokens/s ≈ 显存带宽 (GB/s) / 激活参数体积 (GB)例：Qwen3-32B 权重 BF16 ≈ 64GB，INT4 ≈ 16GB；RTX 5090 带宽 1.79TB/s，理论上限 ≈ 1790/16 ≈ 112 tok/s，vLLM 实测 80–95 tok/s，吻合。公式本身是 roofline 在 memory-bound 阶段的简化，详见PagedAttention 论文与SGLang RadixAttention 论文。Prefill 阶段由算力决定，tok/s 正比于 TFLOPS / (2 × 激活参数量)；长 prompt / RAG / Agent 场景首 token 等待时间主要花在这里。Chunked prefill 的原理与收益见vLLM 文档。2. 硬件全景深度对比2.1 Apple Silicon：Mac Studio 产品线Apple Mac Studio 历代 Ultra 芯片内存上限对比：芯片发布最大统一内存内存带宽备注M2 Ultra2023.6192 GB800 GB/sMac Studio / Mac ProM3 Ultra2025.3192 GB800 GB/sMac Studio / Mac ProM4 Ultra2025.3192 GB546 GB/sMac Studio / Mac Pro来源：Apple Mac Studio 规格页、Apple M4 Ultra 规格（cpu-monkey）、Wikipedia M3 Ultra注意：M2 Ultra Mac Studio 支持最高192 GB，不存在 512 GB 的 Mac Studio 配置。此前文档中"M3 Ultra 512GB"为错误信息，已更正。Mac Pro（M2 Ultra）支持最高192 GB；如需更大内存跑超大模型，目前 Apple 生态无单机超过 192 GB 的消费级方案。M4 Max MacBook Pro：128 GB 上限，546 GB/s，见Apple MacBook Pro软件栈：MLX、llama.cpp Metal、Ollama、LM Studio能跑的极限负载（社区实测，192 GB 上限）：Qwen3-235B-A22B Q4（~120 GB）：192GB 机型可装下，约25–30 tok/s，见LocalLLaMA 实测线程Llama-3.3-70B Q4（~40 GB）：约12–18 tok/sDeepSeek-V3/R1 671B Q4_K_M（~380 GB）：192 GB 装不下，需要多机或其他方案M3 Ultra vs M4 Ultra 选择：两者内存上限相同（192 GB），M3 Ultra 带宽 800 GB/s 略高于 M4 Ultra 的 546 GB/s，推理速度 M3 Ultra 更快M4 Ultra CPU/Neural Engine 更新，编译/微调任务更快起价均约US$ 3,999（Apple 官网）不适合：长上下文 prefill 慢（compute-bound），128K ctx 首 token 几十秒级并发差，单 batch 天然状态，上 vLLM/SGLang 无收益无 CUDA，绝大多数训练/微调工具链走弯路无法跑 DeepSeek-V3/R1 671B 等超过 192 GB 的模型2.2 NVIDIA 消费级：RTX 4090 / RTX 5090项RTX 4090RTX 5090架构Ada (AD102)Blackwell (GB202)显存24 GB GDDR6X32 GB GDDR7带宽1,008 GB/s1,792 GB/sFP8 / FP4 TFLOPS660 / —3,352 / 6,704（含稀疏）TDP450 W575 WMSRPUS$ 1,599US$ 1,999国内参考价¥12–18k（二手）/ ¥18–22k（新）¥20–25k（AIB 版）官方规格：RTX 4090、RTX 5090。国内价格参考中关村在线，因关税/汇率波动请以当日电商报价为准。整机 TCO 估算（3 年，含电费）：配置硬件成本满载功耗3 年电费（¥0.8/kWh，IDC）3 年总成本1× RTX 5090 + 主机~¥30k~700W~¥1.5k~¥31.5k2× RTX 5090 + 主机~¥55k~1,400W~¥3k~¥58k实测（vLLM / TensorRT-LLM）：5090 单卡 Qwen3-32B AWQ-INT4：单流 ~85 tok/s，batch 8 合计 ~340 tok/s（vLLM benchmark 脚本）4090 单卡 Qwen3-14B FP8：~120 tok/s 单流2× 5090 张量并行：Blackwell 消费卡无 NVLink，走 PCIe 5.0 x16，70B Q4 双卡 ~40–55 tok/s不支持 MIG / vGPU，不能切卡做多租户（NVIDIA vGPU 支持矩阵）坑：575W 对家用电源/散热是硬门槛，2 卡起必须 1600W+ 钛金电源 + 开放式机架消费卡NVIDIA Driver EULA禁止数据中心部署（出海 SaaS 要注意）2.3 NVIDIA 工作站级：RTX PRO 6000 Blackwell2026 H1单机本地部署最甜的卡。96 GB GDDR7 ECC，带宽1,792 GB/s，AI 算力4,000 TOPS来源：NVIDIA 官方产品页300W TDP（工作站版主动散热；Server Edition 被动散热，需机箱风道）来源：TechPowerUp 规格页支持MIG（4 分区）、vGPU、ECC，规格见官方产品页MSRPUS$ 8,999（2025.3 上市，国内含税约 ¥75–90k，以当日电商报价为准）来源：TechPowerUp、Newegg 在售页整机 TCO 估算（3 年，含电费，IDC 电价 ¥0.8/kWh）：配置硬件成本（含整机）满载功耗3 年电费3 年总成本1× PRO 6000 整机~¥22 万~500W~¥1.1 万~¥23 万2× PRO 6000 整机~¥35 万~800W~¥1.7 万~¥37 万单卡可跑：Llama-3.3-70B FP8（~70GB） → ~55 tok/s 单流，batch 32 稳态 ~600 tok/sQwen3-72B FP8 单卡放下，~50 tok/s 单流，batch 32 稳态 ~550 tok/sDeepSeek-R1-Distill-Llama-70B FP8 单卡128K 长上下文 KV Cache 游刃有余（vLLM 长上下文指南）并发能力参考（Qwen3-72B FP8，vLLM，TTFT p95 ≤ 500ms）：并发用户数稳态 tok/s说明5~250轻松，有大量余量20~500舒适区，推荐日常生产50~580接近上限，队列开始积压100+需 2 卡单卡 KV Cache 不足双卡（2× = 192GB）：DeepSeek-V3 671B INT4（~335GB）放不下Qwen3-235B-A22B INT4（~120GB）可以，TP=2 单流 60–80 tok/s，batch 32 稳态 ~1,200 tok/s，支持 ~100 并发工作站版与数据中心版（RTX PRO 6000 Blackwell Server Edition，被动散热）区别见NVIDIA PRO GPU 对比。2.4 NVIDIA 数据中心：H100 / H200 / B200 / B300卡显存带宽FP8 / FP4 TFLOPS单卡价官方链接H100 SXM5 80GBHBM33.35 TB/s1,979 / —~$25kH100H100 NVL 94GBHBM33.9 TB/s1,979 / —~$30k同上H200 SXM 141GBHBM3e4.8 TB/s1,979 / —~$30kH200B200 SXM 192GBHBM3e8 TB/s4,500 /9,000~$35–40kBlackwell 架构B300 SXM 288GBHBM3e~10 TB/s~5,500 / ~11,000~$40–45kB300 发布GB200 / GB300 NVL72：超节点架构，把 72 颗 Blackwell GPU 通过NVLink Switch做成"单机"，总显存

新闻详情

相关阅读

TB9051FTG与PIC18F46K80实现直流电机静音控制方案

君正T31固件烧录实战：3步解决OpenIPC启动失败的完整指南

3步完成iOS激活锁绕过：applera1n设备解锁工具终极指南

LTC6903数字控制振荡器与PIC18单片机嵌入式设计实践

4-20mA电流环原理与STM32工业检测系统设计

4-20mA电流环原理与INA196电流检测方案设计

终极城通网盘加速指南：3步免费解锁10倍下载速度

算力巨头遇上热带雨林:VCI Global与香港泛盈开创“绿色算力“合并新范式

从零搭建XSS漏洞研究平台：LEMP环境配置与攻防原理深度解析

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！