以下内容为作者和AI多轮对话后总结生成概要Skill 数量膨胀导致 Agent 命中率下降本质是候选集噪声升高、模型决策边界模糊、上下文承载力不足共同作用的结果最终体现为两类核心问题漏召该调用的技能没选中和误召不该调用的技能被选中。提升命中率的核心思路是从源头降噪 → 分层收敛候选 → 强化决策精度 → 数据闭环迭代以下是可落地的完整方案按投入产出比从高到低排序技术细节第一步先把技能本身收拾利索技能体系标准化重复的合并没用的删掉两个技能干的事差不多比如都能画图就合成一个里面再分小功能。长期没人用、用了也容易出错的技能直接删掉别留着添乱。每个技能写明白 “什么时候用、什么时候别用”别写技术黑话就说人话。比如别说 “这是可视化工具”要说 “用户让画图、做表格的时候用单纯问‘柱状图是什么’的时候别用”。正反都写清楚AI 就不容易乱选。第二步分层路由别让 AI 一次从所有技能里挑。一次性给它几十上百个选项换谁都容易选错。改成 “层层缩小范围”最后只在一小撮里挑「粗筛→精排→决策」三层架构逐层缩小候选集兼顾召回与准确率。第一层规则粗筛零成本过滤 80% 无关项按输入特征硬过滤如用户上传图片则仅保留支持图片输入的技能用户提问代码则仅保留开发类技能关键词命中直达出现强触发词如「画图」「SQL」直接锁定对应品类跳过后续检索统计 Top 20% 高频请求建立「Query 模式→技能」的直接映射不走大模型路由速度与命中率拉满第二层语义检索重排召回核心候选将所有技能的「场景化描述」向量化构建索引用户请求编码后做向量相似度检索初步选出 Top 10~20 候选用轻量级重排序模型如 BGE-Reranker对初筛结果做精排输出 Top 5~8 高相关候选关键向量库只存储场景描述不混入技术实现细节避免语义偏移第三层大模型终判精准决策仅将 Top N 候选的精简描述输入大模型让其在小范围内判断「是否调用、调用哪一个」强制思考链CoT要求模型先输出「需求分析→技能匹配理由→最终决策」通过显性推理降低幻觉调用第三步决策强化提升选择稳定性给 AI 定死规矩别让它瞎发挥系统 Prompt 强约束在给 AI 的指令里写死几条铁律仅当技能能显著提升回答质量时调用纯通用知识问答禁止调用必须严格匹配技能适用场景禁止强行套用以「展示能力」拿不准的时候就别用别硬凑一个技能上去再补几个正反例子比如 “问什么是折线图” 不用画图技能“帮我画个销量折线图” 才用第四步闭环迭代用数据持续优化记录每次调用的核心数据原始请求、选中技能、置信度、执行结果、用户反馈重点标注「漏召」和「误召」两类错误。高误召技能补充「不适用场景」描述降低检索权重高漏召技能补充触发关键词优化场景描述提高检索权重用户确认机制低置信度场景下主动询问用户「是否使用 XX 技能完成需求」由用户确认通用能力降级无匹配技能时直接用大模型通用能力回答不强行调用