Claude Code 03:模型与响应篇

📅 2026/6/16 4:57:55
Claude Code 03:模型与响应篇
Excerpt如何选对模型、调对思考挡位让 Claude Code 更聪明地帮你干活读完本篇你能根据任务难度选对模型、用 effort level 控制思考深度、用 ultrathink 啃硬骨头、用 fast mode 跑短任务并理解 prompt caching 怎么帮你省钱。一、为什么选模型是门技术活Claude Code 不是只有一个模型。它有一组模型能力、速度、价格各不一样。常见的命名族Haiku 系最快、最便宜、最轻量Sonnet 系均衡之选日常默认Opus 系最强推理难题救星模型版本会更新比如 Opus 4.7、Sonnet 4.6但命名族的定位是稳定的。本文用族名讲选型逻辑不依赖具体版本号。记住一句话任务难度决定挡位挡位决定花费。二、最简单的切换Model Alias在 Claude 里输入/model会列出当前可选模型。直接选 sonnet / opus / haiku 等 alias 即可。也可以启动时指定claude--modelopus或在 settings 里把默认模型设成你最常用的{ model:sonnet }alias 是软指针比如sonnet永远指向当前最新的 Sonnet 系模型不用每次更新都改配置。三、Effort Level思考深度的挡位这是 Claude Code 最被低估的旋钮。它控制模型在回答前思考多久——也就是给内部推理分配多少 token 预算。用/effort命令切档新版 Claude Code 提供持久化的 effort 设置/effort low # 简单问答、机械改动 /effort medium # 日常默认 /effort high # 复杂重构、跨多个文件 /effort max # 顶配类似 ultrathink 的预算/effort改的是当前 session 的默认挡位对之后每一句 prompt 都生效。也可以在 settings 里设全局默认{effort:high}关键认知effort 高 ≠ 输出长。它控制的是自言自语阶段的 token 预算最终回答可能反而更精炼准确。四、Ultrathink一次性的深度思考关键词很多人把 ultrathink 当成 effort 的一档这是误解。ultrathink 不是配置项是写在 prompt 里的触发词。Claude Code 在解析你的输入时会做词法匹配看到这些关键词就临时拉高这一次请求的思考预算约 32k token不影响 session 的全局 effort 设置。触发关键词按预算从小到大关键词大致预算think~4,000 tokenthink hard/megathink/think deeply~10,000 tokenthink harder/think really hard/ultrathink~32,000 token直接写在 prompt 里就行位置无所谓开头、结尾、中间都能被识别ultrathink: 我们的支付模块在高并发下偶发幂等性失败 数据库是 PG 14订单表 5000 万行 请深度分析可能的根因和缓解方案或更自然的写法帮我重构这个 auth 模块。think harder about potential security implications.输入框里这些词会被 Claude Code 高亮提示你 extended thinking 已经激活。如果你的 prompt 里只是碰巧用到了这些词又不想触发输入/t可以关掉这次的关键词检测。/effortvsultrathink怎么选/effort high或maxprompt 里写ultrathink作用范围当前 session 之后每条 prompt仅当前这一条 prompt配置方式命令 / settings自然语言关键词适合整个 session 都是硬任务单条 prompt 是硬任务其他普通经验临时一条硬问题 → prompt 里加ultrathink整个 session 都在啃硬骨头比如大重构→/effort max别两个都用没意义这一句的预算已经被 ultrathink 拉到顶了别滥用简单任务用 ultrathink 烧钱日常 90% 工作 medium effort 足够ultrathink 应该是周需求级不是日常项。五、Extended Thinking延伸推理和 effort 是配套机制。开启后模型会显式输出思考过程区块你能看到它在想什么不只是结论。适合你想审计 Claude 的推理过程调试为什么它给了这个答案教学场景看它怎么思考关闭场景自动化 / 脚本里不需要看思考过程关掉省 token。六、Extended Context1M 上下文默认上下文窗口已经很大但有时候不够比如一次性塞进整个大型代码库分析一份巨大的日志或数据长达数小时的 session 不想 compactExtended Context让窗口扩到 100 万 token 级。当前主要在Amazon Bedrock 和 Google Vertex AI上提供需要在那边配置启用。成本警告1M 上下文每次请求都很贵。别当默认用只在确实需要时开。七、Fast Mode用质量换速度这是和 effort 反向的旋钮——让 Claude 跑得更快但接受质量略降。适合UI 联调时的快速试错大量重复性小任务交互式探索“快速看一下” “想清楚”开启/fast或 settings{fastMode:true}注意某些企业组织可能限制 fast mode 的使用跑大重构、写关键代码不要用它不等于换更弱的模型是同模型用更短的推理路径。八、Prompt Caching自动省钱魔法这是 Claude 自带的能力默认开启不用你做什么但理解它能帮你写出更省钱的 prompt。原理Claude 会把 prompt 中稳定的部分系统指令、CLAUDE.md、工具描述、长文档做缓存。第二次请求时缓存部分按几分之一的价格计费。怎么最大化利用CLAUDE.md 写得稳定经常改 CLAUDE.md 会让缓存失效。规则尽量稳定。把变量放在最后prompt 前半部分稳定系统指令、context变量信息用户问题放后面缓存命中率最高。同一个 session 内多轮对话最划算前面的内容会一直命中缓存。大文档放前面你引用了一个大文档第二次再问文档部分免费复用。1 小时缓存 TTL默认缓存活 5 分钟可以配置成 1 小时特别长的代理任务受益。详见 settings 配置。九、Output Styles响应风格的人设层模型决定能力Output Style 决定它说话的方式。内置风格-默认平衡、专业Concise极简只给结论Explanatory每步都解释为什么Learning偏教学适合新手切换/output-style concise自定义风格.claude/output-styles/my-style.md--- name: my-style description: 我的个人风格 --- -总是用第一人称我帮你... -中文回答代码注释保留英文 -完成后必须列出 3 条接下来你可以...建议 -不输出 emoji/output-style my-style启用。和 CLAUDE.md 的区别CLAUDE.mdOutput Style项目的硬规则怎么写代码你的口味怎么说话团队共享个人 / 团队风格必须遵守可随时切换经验项目硬规则永远走 CLAUDE.md说话语气走 Output Style。十、模型选型决策树是简单的小问答 / 机械改动 └─ 是 → Haiku low effort fast mode └─ 否 → 是日常代码开发 / 中等复杂度 └─ 是 → Sonnet medium effort默认 └─ 否 → 是大型设计 / 难 bug / 架构决策 └─ 是 → Opus high effort └─ 极难、要一次性深度思考 └─ 是 → Opus ultrathink再叠一层任务时长 30s → 用 fast mode需要塞进巨大上下文 → Bedrock/Vertex 1M 窗口要审计 AI 的推理 → 开 extended thinking十一、常见坑坑 1什么都用 OpusOpus 不是更强是更深思考、更贵。日常任务 Sonnet 完全够Opus 用在刀刃上。坑 2把 ultrathink 写成口头禅它是一次性深度推理不是日常挡位。每条 prompt 加 ultrathink 钱包受罪 速度感人。坑 3fast mode 跑生产代码它适合快速探索不适合写要上线的关键代码。质量上的细微下降在关键场景会放大。坑 4以为 prompt caching 是手动的它是自动的。你能做的只是让 prompt 结构更友好稳定内容在前、变量在后。坑 5用 fast mode ultrathink这俩是反向旋钮。一起开等于互相抵消。设置上 Claude 会让其中一个生效但不要写出这种组合。十二、企业场景约束模型选择如果你是团队管理员可能不希望成员随便用最贵的 Opus ultrathink。可以在 managed settings 里强制{ modelRestrictions: { allowed: [sonnet,haiku], default:sonnet } }成员的/model命令只会显示允许的模型。详细配置在配置和部署两篇会讲。✅ 本篇要点回顾模型选 aliassonnet/opus/haiku不要硬编码版本号。Effort Level/effort low/medium/high/max是 session 级思考深度旋钮日常 medium难题 high/max。Ultrathink是 prompt 里的关键词不是 effort 配置项临时为单条 prompt 拉满思考预算。同类的还有think、think hard、think harder预算逐级递增。Extended Thinking让推理过程可见用于审计和教学。Extended Context1M在 Bedrock/Vertex 上巨大但贵。Fast Mode用质量换速度适合短小快任务不要混在 ultrathink 上。Prompt Caching自动省钱让稳定内容前置、变量后置能最大化命中率。Output Styles控制说话语气与 CLAUDE.md 的硬规则互补。