单端口部署多模型最简单解决方案(vllm sglang 等均适用)
TLDR
将不同模型部署在不同端口,使用litellm的proxy功能统一管理转发
步骤1:本地部署好模型在若干端口上
vllm serve Qwen/Qwen3.5-2B --port 8031vllm serve Qwen/Qwen3.5-4B --port 8032vllm serve Qwen/Qwen3.5-9B --port 8033
步骤2:…
2026/6/26 18:40:40