GCP Vertex AI Provisioned Throughput 完全指南 — 从 429 限流到 PT 预留吞吐量 📅 2026/6/19 9:24:36 一、背景与痛点1.1 问题场景使用 Vertex AI Gemini 模型(如 gemini-3-pro-image / gemini-3.1-flash-image)进行图片生成或多模态推理时,随着流量增长会频繁遇到429 Resource Exhausted错误。典型报错:google.api_core.exceptions.ResourceExhausted: 429 Resource has been exhausted (e.g. check quota).1.2 根因分析根因说明影响按需配额不足每个项目/区域有默认 QPM/TPM 上限流量超额即 429preview 端点 QPM 低preview 模型默认 QPM 仅 20极易触发限流global 端点共享池多区域共享资源池竞争高峰期不稳定无重