大模型时代的“古德哈特定律”:当 MMLU 达到 90%,我们该信什么?

📅 2026/6/27 9:40:54
大模型时代的“古德哈特定律”:当 MMLU 达到 90%,我们该信什么?
如果你最近关注人工智能圈子的发布会你一定会产生一种错觉现在的 AI 简直聪明得令人发指。无论是国内还是国外的厂商在发布新模型时总会抛出一张雷打不动的跑分对比图。图上的核心指标通常是MMLU大规模多任务语言理解而各家的数据清一色地逼近 90% 甚至更高。90% 是什么概念这意味着在这个涵盖了 57 个学科从基础数学到高级微观经济学、法学、医学的题库里AI 几乎成了一个无所不知的全才。但在实际体验中我们却常常发现这些“跑分王者”连一句复杂的逻辑指令都听不懂或者在写代码时频频翻车。为什么“高分”无法转化为真实的“高能”这背后其实是一个经典的经济学与系统工程学魔咒——古德哈特定律Goodhart’s Law。什么是古德哈特定律英国经济学家查尔斯·古德哈特在 1975 年提出了这一定律其最著名的表述是“当一个指标被设定为目标后它就不再是一个好指标了。”(When a measure becomes a target, it ceases to be a good measure.)在任何复杂系统中我们很难直接衡量“真实价值”比如 AI 的真实推理智能。于是我们发明了“代理指标”比如 MMLU 考试分数。只要这个指标仅仅是用来作为“观测仪”它是客观且有效的但一旦它变成了各家厂商打广告、拼绩效的KPI系统内的所有参与者就会开始疯狂地“系统博弈Gaming the System”。MMLU 是如何被“玩坏”的MMLU 最初是一个极其优秀的数据集。它就像是给大模型做的一场“全科体检”能够极好地反映模型在预训练阶段吸收了多少人类的结构化知识。但当 MMLU 成为定义“谁是世界第一大模型”的唯一黄金标准后灾难就开始了被动的数据污染Data Contamination大模型的胃口太大了。几万亿 Token 的预训练数据相当于把整个互联网的底裤都爬了一遍。MMLU 作为一个开源测试集其题目早就散布在 GitHub、论文和各大论坛中。模型在训练时已经“不小心”把这些考题连同答案一起背了下来。主动的“应试教育”Overfitting为了让发布会的数据好看部分厂商甚至会主动将 MMLU 的变体数据混入微调SFT阶段。这就像是让学生在高考前直接拿着高考试卷和参考答案闭门苦背。结果显而易见模型在 MMLU 上的分数飙升到了 90 分但这只证明了它拥有惊人的记忆力而不再能证明它拥有跨领域的逻辑推理能力。代理指标分数和真实价值智能发生了彻底的背离。后 MMLU 时代的“破局之战”既然“刷题”现象无法避免学术界和工业界正在寻找新的试金石来对抗古德哈特定律提高门槛阻击死记硬背MMLU-Pro将原版简单的 4 选 1 改为 10 选 1剔除简单的常识题强迫模型必须进行多步逻辑推理。很多号称 80 分的模型在这里直接被打回 50 分的原形。上真刀真枪SWE-bench不考选择题了直接给 AI 扔一个真实的 GitHub 开源项目 Bug。要求 AI 自己去阅读数万行代码自己编写修复补丁并跑通单元测试。终极盲测LMSYS Chatbot Arena放弃所有静态数据集采用类似“非诚勿扰”的盲测模式。让两个未具名的大模型直接对答由人类用户根据真实体验投票决出胜负。这是目前公认最难作弊、最接近用户真实体感的评估方式。结语古德哈特定律提醒我们不要把温度计上的刻度当成了房间里的真实温度。在软件开发中不要用“代码行数”去衡量程序员的产出在 AI 时代也不要盲信发布会上的任何静态跑分。对于我们普通开发者和用户而言判断一个大模型好不好的唯一标准就是把它拉到你自己的真实业务场景里看它到底能干多少活。毕竟在真正的通用人工智能AGI到来之前所有的“考试”都只是一场猫鼠游戏。