云服务器部署私有AI大模型实战指南 📅 2026/6/29 16:43:30 准备工作一台云服务器配置最低4G、4核勉强能跑0.5b、1b大模型详细步骤服务器配置4核/4GB / Ubuntu 24.04 / 无 GPU目标让一台廉价云服务器也能跑大模型且能通过 API 调用前言我为什么要写这篇不是每台服务器都有 A100 显卡不是每个人都在 H100 集群上做推理。我的服务器配置很寒碜——4 核 CPU3.6GB 内存没有 GPU。这是一台典型的买来挂个博客、跑个脚本的轻量级云服务器。但我想在这上面跑大模型。不是说说而已是真的要用起来。如果你也在类似的机器上挣扎过这篇文章就是给你的。硬件真相你能跑什么样的模型先说结论CPU 3.6GB 内存你能跑 1B~3B 参数级别的量化模型。这里有个简单的经验公式模型运行时显存 ≈ 参数规模 × 量化精度模型规模4-bit 量化8-bit 量化FP160.5B (如 Qwen2.5-0.5B)~0.3GB~0.5GB~1GB1.8B (如 Qwen2.5-1.5B)~1GB~1.8GB~3.6GB3B (如 Qwen2.5-3B)~1.7GB~3GB~6GB看明白了吧在 3.6GB 的机器上Qwen2.5-1.5B 的 4-bit 量化版是舒适区Qwen2.5-3B 的 4-bit 量化版是极限。提醒推荐直接给云服务器安装Openclaw或其它Agent镜像然后直接让AI替你安装AI大模型即可免去手动折腾下文也就不需要看了第一步安装 OllamaOllama 是目前最简单的大模型运行方案。一条命令安装curl-fsSLhttps://ollama.com/install.sh|sh安装完成后Ollama 会以 systemd 服务运行# 检查状态systemctl status ollama# 如果没启动systemctlenable--nowollama如果你的服务器在国外、网络不稳定可以先检查一下ollama.com能否访问。被墙的话你得先解决代理问题本文不展开。第二步选择合适的模型推荐模型按优先级排列1. Qwen2.5-1.5B强烈推荐Qwen2.5 是阿里通义千问团队开源的最新系列。1.5B 版本在代码、推理、中文理解上表现惊艳远超同参数级别的其他模型。ollama pull qwen2.5:1.5b2. Qwen2.5-3B高配选择如果你关了 swap、清理了内存3B 版本的 4-bit 量化勉强能跑。输出质量比 1.5B 明显提升但推理速度会慢一截。ollama pull qwen2.5:3b3. DeepSeek-R1-1.5B推理增强DeepSeek 的轻量推理模型擅长逻辑推理和数学适合当你需要思考型输出时使用。ollama pull deepseek-r1:1.5b4. Llama 3.2-3B英文优先如果你的主要场景是英文Meta 的 Llama 3.2 是不错的选择。中文能力弱于 Qwen。ollama pull llama3.2:3b个人建议主力用qwen2.5:1.5b再拉一个deepseek-r1:1.5b做推理任务备用。两个模型加起来大约 2GB 内存完全够用。第三步验证与测试拉完模型后先确认它在跑# 列出已安装的模型ollama list# 命令行直接对话测试ollama run qwen2.5:1.5b输入一个简单问题试试比如“用 Python 写一个冒泡排序”。看看输出是否正常。如果出现 OOM内存不足检查# 查看当前内存使用free-h# 清理系统缓存syncecho3/proc/sys/vm/drop_caches第四步开放 API 接口Ollama 默认只在127.0.0.1:11434监听。如果要从其他机器访问需要修改配置。4.1 配置外部访问编辑 Ollama 的环境变量# 编辑 systemd 服务配置systemctl edit ollama添加以下内容[Service] EnvironmentOLLAMA_HOST0.0.0.0然后重启systemctl daemon-reload systemctl restart ollama4.2 安全提醒 ⚠️开放0.0.0.0意味着任何人都能访问你的模型。强烈建议配置防火墙# 仅允许特定 IP 访问ufw allow from 你的IP to any port11434# 或使用 iptablesiptables-AINPUT-ptcp--dport11434-s你的IP-jACCEPT iptables-AINPUT-ptcp--dport11434-jDROP更好的做法是用 Nginx 反向代理加一层 Basic Auth或者搭配 API Key 网关。4.3 测试 API# 从远程机器测试curlhttp://你的服务器IP:11434/api/generate-d{ model: qwen2.5:1.5b, prompt: 你好请用一句话介绍你自己, stream: false }返回结果类似{model:qwen2.5:1.5b,response:我是通义千问阿里云开发的大语言模型。,done:true}第五步调优与踩坑5.1 推理太慢怎么办CPU 推理就是慢这是物理定律。但可以优化调整并发线程数# 设置 OLLAMA_NUM_PARALLEL 控制并发请求数默认是1systemctl edit ollama# 添加EnvironmentOLLAMA_NUM_PARALLEL1保持单并发。在 4 核 CPU 上并行推理不会更快反而会互相抢 CPU。使用量化模型Ollama 默认使用 Q4_K_M 量化4-bit如果你是手动导入模型确保用 GGUF 格式的量化版本而不是 FP16 的原始权重。5.2 内存不够用# 增加 swap临时方案会变慢但不会 OOMfallocate-l4G /swapfilechmod600/swapfilemkswap/swapfileswapon/swapfile注意swap 会导致推理速度断崖式下降。能不用就别用。5.3 模型下载慢设置代理# 配置 HTTP 代理环境变量systemctl edit ollamaEnvironmentHTTP_PROXYhttp://你的代理:端口EnvironmentHTTPS_PROXYhttp://你的代理:端口或者换个思路——在一台网络好的机器上下载模型文件然后scp到服务器手动导入 Ollama。5.4 模型下载中断 / 不完整Ollama 支持断点续传。如果下载中断直接重新执行ollama pull它会从断点继续。第六步集成到你的应用Python 调用示例importrequestsimportjson OLLAMA_URLhttp://localhost:11434defchat(prompt,modelqwen2.5:1.5b):responserequests.post(f{OLLAMA_URL}/api/generate,json{model:model,prompt:prompt,stream:False,options:{temperature:0.7,num_predict:512,# 最大输出 token}})returnresponse.json()[response]# 使用print(chat(解释一下什么是 API))兼容 OpenAI API 格式Ollama 内置兼容 OpenAI 的/v1/chat/completions接口fromopenaiimportOpenAI clientOpenAI(base_urlhttp://你的服务器IP:11434/v1,api_keyollama# 任意字符串即可)responseclient.chat.completions.create(modelqwen2.5:1.5b,messages[{role:user,content:你好}])print(response.choices[0].message.content)这意味着你现有的 LangChain、Dify、ChatBox 等工具可以直接对接。性能基准在 腾讯云 4C/3.6GB 这台机器上实测模型量化推理速度内存占用qwen2.5:0.5bQ4_K_M~25 tok/s~500MBqwen2.5:1.5bQ4_K_M~12 tok/s~1.2GBqwen2.5:3bQ4_K_M~5 tok/s~2.1GBdeepseek-r1:1.5bQ4_K_M~10 tok/s~1.3GB12 tok/s 意味着每秒能输出 12 个 token大约 20 个中文字。对于聊天场景来说可接受等待几秒就能看到完整回复。总结用 Ollama不用折腾 PyTorch、Transformers、CUDA 那一套选对模型Qwen2.5-1.5B 是甜点Qwen2.5-3B 是上限4-bit 量化是必须的Ollama 默认就是量化版本不用额外操作开放 API 记得做安全防护别裸奔CPU 推理就是慢接受它。如果需要实时对话体验升级到 GPU 机器是唯一出路一台月租几十块的云服务器加上开源的 AI 模型能做很多事个人助手、代码生成、文档摘要、翻译、RAG 知识库……关键是它完全属于你数据不外泄想怎么玩就怎么玩。祝折腾愉快。