Ubuntu 系统本地部署 Qwen3.5-32B 大模型 📅 2026/7/6 1:09:54 目录一、部署前准备1.硬件需求估算2. 软件环境二、vLLM高性能支持 OpenAI 兼容 API1. 安装 vLLM2. 下载模型推荐 ModelScope国内高速3. 启动 vLLM 推理服务4. 测试 API三、常见问题与优化1. 显存不足OOM2. 下载速度慢3.多 GPU 部署4.纯 CPU 推理无 GPU四、总结以下是在 Ubuntu 系统 上本地部署 Qwen3.5-32B 大模型的详细流程。假设模型全称为 Qwen3.5-32B-Instruct 。一、部署前准备1.硬件需求估算部署方式量化精度典型显存/内存占用推荐 GPUvLLM / TransformersFP16/BF16~64 GB 显存2×A100 40G / 1×A100 80GvLLM (AWQ/GPTQ)4-bit 量化~20 GB 显存RTX 3090/409024 GBOllama / llama.cppQ4_K_M GGUF~20 GB 内存/显存单张 24 GB 显卡 或 CPU 32 GB 内存纯 CPU 推理Q4_K_M GGUF~20 GB 内存无显卡仅 CPU推荐开发/个人使用单卡 24 GB 显卡 4‑bit 量化。推荐生产环境vLLM AWQ/GPTQ 量化版本。2. 软件环境Ubuntu 20.04 / 22.04 / 24.04NVIDIA 驱动 (≥ 525)CUDA 12.1Python 3.10 (推荐 Miniconda 管理)# 检查驱动和 CUDA nvidia-smi nvcc --version二、vLLM高性能支持 OpenAI 兼容 API1. 安装 vLLMconda create -n vllm python3.10 -y conda activate vllm pip install vllm # 自动匹配 CUDA 版本2. 下载模型推荐 ModelScope国内高速安装 ModelScope 工具pip install modelscope下载完整精度FP16或官方量化版本如 AWQ# 假设官方在 ModelScope 上的模型 ID 为 qwen/Qwen3.5-32B-Instruct modelscope download --model qwen/Qwen3.5-32B-Instruct --local_dir ./Qwen3.5-32B-Instruct如果是 AWQ 量化版可搜索 Qwen3.5-32B-Instruct-AWQ 并下载。3. 启动 vLLM 推理服务情况 A拥有 80 GB 显存直接跑 FP16python -m vllm.entrypoints.openai.api_server \ --model ./Qwen3.5-32B-Instruct \ --served-model-name qwen35-32b \ --max-model-len 8192 \ --gpu-memory-utilization 0.95 \ --dtype auto情况 B24 GB 显存使用 AWQ 量化先下载 Qwen3.5-32B-Instruct-AWQ 权重然后python -m vllm.entrypoints.openai.api_server \ --model ./Qwen3.5-32B-Instruct-AWQ \ --quantization awq \ --served-model-name qwen35-32b \ --max-model-len 8192 \ --gpu-memory-utilization 0.95若无官方 AWQ可使用 bitsandbytes 动态量化需安装bitsandbytespip install bitsandbytes # 启动时添加 --quantization bitsandbytes --load-format bitsandbytes4. 测试 APIcurl http://localhost:8000/v1/chat/completions \ -H Content-Type: application/json \ -d { model: qwen35-32b, messages: [{role: user, content: 你好请介绍一下你自己。}] }三、常见问题与优化1. 显存不足OOM减少 --max-model-len如 4096。增加 --gpu-memory-utilization 0.85。使用 --enforce-eager 关闭 CUDA graph 优化节省显存。换用量化版本AWQ/GPTQ/GGUF。2. 下载速度慢使用 ModelScope 镜像modelscope download。HuggingFace 用户设置环境变量export HF_ENDPOINThttps://hf-mirror.com3.多 GPU 部署在 vLLM 中指定 --tensor-parallel-size 2例如 2 张 24 GB 卡跑 32B FP16。4.纯 CPU 推理无 GPU下载 GGUF 文件后使用 llama.cppgit clone https://github.com/ggerganov/llama.cpp cd llama.cpp make -j ./llama-server -m qwen35-32b-q4.gguf --host 0.0.0.0四、总结想最快体验使用 Ollama GGUF。搭建 API 服务使用 vLLM AWQ 量化。硬件有限首选 4‑bit 量化一张 RTX 4090 即可流畅运行。