模型评测体系:平均分高不代表线上好用

📅 2026/7/2 1:16:49
模型评测体系:平均分高不代表线上好用
模型评测体系平均分高不代表线上好用一、评测要贴近真实任务模型评测最容易落入平均分陷阱。一个模型在公开 Benchmark 上分数很高不代表它在你的业务里好用。业务场景可能有特定术语、噪声输入、格式要求、风险约束和用户偏好。评测体系必须从真实任务出发而不是只看通用榜单。评测集应覆盖正常样本、边界样本、困难样本和攻击样本。比如客服摘要任务要包含短对话、长对话、多轮冲突、用户辱骂、缺失上下文和敏感信息代码生成任务要包含可编译性、边界输入和安全风险。只评估干净样本线上一定会翻车。二、评测链路离线指标和线上反馈闭环flowchart TD A[真实样本采集] -- B[脱敏与标注] B -- C[离线评测] C -- D[人工抽检] D -- E[灰度上线] E -- F[线上反馈] F -- A评测指标要分层。结构化任务可以用准确率、召回率、格式合法率摘要任务可以看信息覆盖、事实错误、冗余程度对话任务可以看解决率、拒答合理性、用户满意度Agent 任务还要看完成率、工具错误率和平均步骤数。一个总分很难解释问题。三、评测函数先把输出合法性检查掉下面是一个简化的 JSON 输出评测函数。格式不合法时后续语义评测没有意义。import json def evaluate_json_output(raw: str, required_keys: list[str]) - dict: try: data json.loads(raw) except json.JSONDecodeError: return {valid: False, reason: invalid_json} missing [key for key in required_keys if key not in data] if missing: return {valid: False, reason: fmissing_keys:{missing}} return {valid: True, data: data}自动评测可以提升效率但不能完全替代人工。尤其是事实性、语气、风险判断和业务可用性经常需要人工标注。可以用模型辅助评审但关键样本仍要有人工标准答案。评测模型本身也会偏不能把它当绝对裁判。四、上线判断稳定性比单点高分更重要上线前要看分位数和坏例。模型平均分提升 3%但在某类高风险样本上明显退化可能不能上线。比如医疗、金融、法律和运维处置类任务少数严重错误比大量轻微提升更重要。评测报告应展示分类别结果而不是只给一个总分。评测集也要更新。业务变化、用户输入变化、Prompt 变化都会让旧评测集逐渐失效。线上失败案例、人工修改案例和用户投诉应定期进入评测集。模型评测不是发布前的一次考试而是持续回归测试。成本和延迟也属于评测。一个模型效果更好但响应慢两倍、成本高三倍未必适合所有场景。可以按任务风险分级高价值任务用强模型低风险高频任务用轻模型。模型选型要在效果、成本和延迟之间做取舍。评测报告还应包含坏例分析。列出模型失败的典型样本比只展示分数更能指导改进。坏例可以分成事实错误、格式错误、拒答错误、过度推断和安全风险。分类越清楚下一步是补数据、改 Prompt、换模型还是加规则就越明确。线上 A/B 也要谨慎。模型回答质量可能影响用户决策灰度范围、回滚条件和用户反馈入口要提前设计。不要把所有用户都当评测集。生产落地补充从能跑到可维护从生产落地角度看这类方案不能只停留在主流程。更关键的是把输入校验、失败分支、资源上限和回滚路径提前写清楚。主流程通常容易在演示环境里跑通真正暴露问题的是异常输入、依赖抖动、并发放大和权限边界。一篇技术方案如果没有解释这些约束读者很难判断它能否放进真实系统。评估时建议先定义三类指标正确性指标、稳定性指标和成本指标。正确性指标回答结果是否可信稳定性指标回答失败时是否可控成本指标回答持续运行是否划算。三类指标要同时进入验收清单不能只用平均耗时或单次成功率证明方案有效。五、总结模型评测体系要围绕真实任务建设既看离线指标也看人工抽检、坏例、线上反馈、成本和延迟。平均分高不代表线上好用分场景稳定达标才是关键。