Ubuntu 系统本地部署 Qwen3.5-32B 大模型

📅 2026/7/6 1:09:54

目录一、部署前准备1.硬件需求估算2. 软件环境二、vLLM高性能支持 OpenAI 兼容 API1. 安装 vLLM2. 下载模型推荐 ModelScope国内高速3. 启动 vLLM 推理服务4. 测试 API三、常见问题与优化1. 显存不足OOM2. 下载速度慢3.多 GPU 部署4.纯 CPU 推理无 GPU四、总结以下是在 Ubuntu 系统上本地部署 Qwen3.5-32B 大模型的详细流程。假设模型全称为 Qwen3.5-32B-Instruct 。一、部署前准备1.硬件需求估算部署方式量化精度典型显存/内存占用推荐 GPUvLLM / TransformersFP16/BF16~64 GB 显存2×A100 40G / 1×A100 80GvLLM (AWQ/GPTQ)4-bit 量化~20 GB 显存RTX 3090/409024 GBOllama / llama.cppQ4_K_M GGUF~20 GB 内存/显存单张 24 GB 显卡或 CPU 32 GB 内存纯 CPU 推理Q4_K_M GGUF~20 GB 内存无显卡仅 CPU推荐开发/个人使用单卡 24 GB 显卡 4‑bit 量化。推荐生产环境vLLM AWQ/GPTQ 量化版本。2. 软件环境Ubuntu 20.04 / 22.04 / 24.04NVIDIA 驱动 (≥ 525)CUDA 12.1Python 3.10 (推荐 Miniconda 管理)# 检查驱动和 CUDA nvidia-smi nvcc --version二、vLLM高性能支持 OpenAI 兼容 API1. 安装 vLLMconda create -n vllm python3.10 -y conda activate vllm pip install vllm # 自动匹配 CUDA 版本2. 下载模型推荐 ModelScope国内高速安装 ModelScope 工具pip install modelscope下载完整精度FP16或官方量化版本如 AWQ# 假设官方在 ModelScope 上的模型 ID 为 qwen/Qwen3.5-32B-Instruct modelscope download --model qwen/Qwen3.5-32B-Instruct --local_dir ./Qwen3.5-32B-Instruct如果是 AWQ 量化版可搜索 Qwen3.5-32B-Instruct-AWQ 并下载。3. 启动 vLLM 推理服务情况 A拥有 80 GB 显存直接跑 FP16python -m vllm.entrypoints.openai.api_server \ --model ./Qwen3.5-32B-Instruct \ --served-model-name qwen35-32b \ --max-model-len 8192 \ --gpu-memory-utilization 0.95 \ --dtype auto情况 B24 GB 显存使用 AWQ 量化先下载 Qwen3.5-32B-Instruct-AWQ 权重然后python -m vllm.entrypoints.openai.api_server \ --model ./Qwen3.5-32B-Instruct-AWQ \ --quantization awq \ --served-model-name qwen35-32b \ --max-model-len 8192 \ --gpu-memory-utilization 0.95若无官方 AWQ可使用 bitsandbytes 动态量化需安装bitsandbytespip install bitsandbytes # 启动时添加 --quantization bitsandbytes --load-format bitsandbytes4. 测试 APIcurl http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { model: qwen35-32b, messages: [{role: user, content: 你好请介绍一下你自己。}] }三、常见问题与优化1. 显存不足OOM减少 --max-model-len如 4096。增加 --gpu-memory-utilization 0.85。使用 --enforce-eager 关闭 CUDA graph 优化节省显存。换用量化版本AWQ/GPTQ/GGUF。2. 下载速度慢使用 ModelScope 镜像modelscope download。HuggingFace 用户设置环境变量export HF_ENDPOINThttps://hf-mirror.com3.多 GPU 部署在 vLLM 中指定 --tensor-parallel-size 2例如 2 张 24 GB 卡跑 32B FP16。4.纯 CPU 推理无 GPU下载 GGUF 文件后使用 llama.cppgit clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j ./llama-server -m qwen35-32b-q4.gguf --host 0.0.0.0四、总结想最快体验使用 Ollama GGUF。搭建 API 服务使用 vLLM AWQ 量化。硬件有限首选 4‑bit 量化一张 RTX 4090 即可流畅运行。

新闻详情

相关阅读

从 AlexNet 到 ResNet-152：5个关键架构演进与 ImageNet Top-1 错误率下降曲线

百度网盘怎么免费满速下载？2026超详细保姆级教程，支持批量下载

响应式设计与移动优先的前端开发策略研究

postmarketOS 适配 500+ 款手机：从设备列表看 Linux 手机驱动开发的 3 大难点

AD25|画PCB四层板

GESP2026年6月认证C++一级( 第一部分选择题（1-7））精讲

三星固件下载神器Bifrost：免费获取官方固件的终极指南

从Viola-Jones到YOLO：目标检测20年演进中的3个关键范式转变

如何自制一个Usbasp烧录器给芯片烧写bootloader?

acme.sh私钥加密存储：基于OpenSSL的自动化证书安全管理方案

免费二维码修复工具终极指南：三步拯救损坏二维码

星露谷物语终极MOD指南：5个步骤打造智能自动化农场

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！