本地大模型别再瞎装了!这个开源神器会自动帮你选模型 📅 2026/6/29 18:35:47 最近我在折腾本地大模型时最大的痛点不是“模型不够强”而是“到底该装哪个模型”。很多人看到参数量就冲结果下载完才发现显存爆了、速度慢了、CPU 直接顶满最后只能删掉重来。whichllm这个项目正好解决了这个问题它会自动识别你的硬件然后根据真实基准和运行条件给出最适合你机器的本地模型推荐。这个项目到底解决什么问题whichllm是一个 Python CLI 工具核心能力就一句话找出“能跑”且“跑得好”的本地 LLM而不是只看模型有多大。它会读取 GPU、CPU、RAM、磁盘等信息再结合 HuggingFace 模型数据和多个 benchmark 来源做综合排序。这比传统的“显存够不够”判断方式实用太多了。因为本地部署真正麻烦的地方不是“模型能不能放下”而是“放下之后速度行不行、体验稳不稳、是不是得大规模 CPU offload”。为什么我觉得它很适合本地党这个项目最有价值的地方是它把“选模型”从玄学变成了工程问题。它不是简单按参数量排序而是把多个 benchmark 融合进来再结合量化、offload、速度门槛和可信度做评分。换句话说它考虑的不只是“能不能装下”还考虑了“装下以后是不是值得跑”。这对我们这种经常测试模型、写教程、做 benchmark 的人来说效率提升非常明显。我本机实测结果我在自己的 Windows 机器上跑了一遍硬件识别结果如下GPU 0NVIDIA GeForce RTX 5070 Ti15.9 GB 显存。CPUAMD Ryzen 7 7800X3D8 核。RAM63.1 GB。磁盘可用空间88.3 GB。whichllm hardware能直接把这些信息整理成漂亮的终端表格输出属于“一眼就知道自己机器什么水平”的那种工具。然后我执行了uv run whichllm --top 10得到的前几名推荐非常有参考价值。排名第一的是google/gemma-4-26B-A4B-it量化为Q3_K_M显示为 Full GPU估算速度达到 154.3 tok/s得分 77.6。紧随其后的是Qwen/Qwen3.6-27B、openai/gpt-oss-20b、Qwen/Qwen3-14B、microsoft/phi-4等模型。对我这张 16GB 显存卡来说最实用的结论其实很清晰Qwen/Qwen3-14B Q5_K_M这种组合非常稳显存压力合理中文体验也更友好。小白也能照着走的通用流程如果你是第一次接触本地模型我建议直接按下面这套流程来不要上来就到处搜“最强模型”。第一步先装 whichllm项目支持通过uv、PyPI、Homebrew 等方式安装定位就是一个 Python CLI 工具 。如果你本地已经装好了 Python 环境最省心的方式通常还是直接按项目说明用uv跑。如果你是从 GitHub 克隆源码到本地一般流程就是git clone https://github.com/Andyyyy64/whichllmcd whichllmuv sync这里的重点不是安装姿势而是你装完以后后面所有判断都能自动化完成不需要自己去查显卡表、量化表和排行榜。第二步先看硬件不要先看模型装好之后第一条建议执行的命令不是推荐模型而是先看机器体检结果uv run whichllm hardware这个命令会自动识别你的 GPU、显存、CPU、内存和磁盘情况本质上是在告诉你你的本地部署上限大概在哪。whichllm的核心设计就是先识别硬件再去匹配模型而不是反过来 。这一步非常适合小白。因为很多人其实连自己的“真实可用显存”和“硬件瓶颈”都没概念更别说判断 14B、27B、70B 哪个适合自己了。第三步直接看推荐列表uv run whichllm --top 10这个命令会给出一组排序后的模型推荐通常会包含模型名、量化方式、是否能完整进入显卡、预计速度、发布时间和综合分数。项目介绍里明确提到它会把真实 benchmark、量化惩罚、证据可信度、速度估算等因素一起纳入排序而不是只做“能不能装下”的判断 。app.daily1你看到推荐结果后不需要一眼看懂所有细节只要先抓住三个关键词Full GPU优先级最高代表模型可以完整放进显卡体验通常更稳定。Partial说明有一部分要 offload 到内存或 CPU理论上能跑但速度和稳定性可能会下降。Quant量化方式决定了显存占用和性能平衡小白阶段不用研究太深先按推荐用就够了。第四步优先选“稳”的不要一上来追最大模型这是最容易踩坑的一步。很多新手看到排名靠前的大模型就想直接冲但实际上更合理的做法是先选 Full GPU、速度可用、显存有余量的模型。项目文档和介绍都在强调它不仅考虑 fit还考虑 speed 和实际可用性 。所以对普通用户来说更稳妥的思路是先用这条命令uv run whichllm --gpu-only --speed usable --vram-headroom 1GB --top 10这条命令的意义很适合写给小白不是挑“理论上最强”而是挑“你电脑今天就能舒服跑起来”的模型。如果你是第一次部署本地大模型这一步比追排行榜重要得多。第五步按用途继续筛选当你已经知道自己机器能跑哪些模型之后再根据用途细分会更高效。项目支持按不同场景过滤比如 coding 场景就可以这样查 uv run whichllm --profile coding --gpu-only --speed usable --top 10也就是说whichllm不只是回答“能跑什么”还在尝试回答“你现在这台机器做这类任务更适合什么。”这对写代码、做问答、做 RAG、做本地助手的人都很有价值因为不同用途真正需要的模型并不完全一样。第六步想查单个模型直接反查有时候你不是想看推荐列表而是已经心里有个目标模型比如你想知道某个 Qwen、Gemma、Llama 模型到底适不适合自己机器。uv run whichllm plan Qwen3-14B项目介绍里也提到plan这类能力本质上是在做反向查询不是“我该跑什么”而是“我想跑这个需要什么硬件” 。这对准备升级显卡、或者计划买新机器的人尤其有用。适合谁用这个工具特别适合三类人本地大模型玩家想知道自己机器到底该跑什么。做教程、做评测的人需要快速给不同硬件找推荐模型。想买新显卡的人可以先模拟目标 GPU 能跑哪些模型。如果你平时就在做 RAG、OCR、LLM 应用开发这个工具更像是一个“模型选型前的体检仪”。它不能替你决定业务方案但能帮你在本地部署前少踩很多坑。我给你的结论如果你是本地模型党这个项目值得收藏。它的价值不在于“列出很多模型”而在于把“模型选择”变成了基于硬件和 benchmark 的决策。如果你想把本地大模型部署从“凭感觉”升级到“有数据可依”whichllm就是一个很好的起点。