当AI只说“正确废话“:Globant工程师揭露AI评估体系的根本性漏洞

📅 2026/6/17 12:13:58
当AI只说“正确废话“:Globant工程师揭露AI评估体系的根本性漏洞
这项由Globant公司工程师主导的独立研究发表于2026年6月以预印本形式提交至arXiv论文编号为arXiv:2606.09376v1。研究聚焦于人工智能生成文本的评估方法提出了一个长期被忽视却至关重要的问题我们用来衡量AI诚实度的标准本身就存在根本性缺陷。一、考试只答一道题也能得满分假设你的老师布置了一篇作文要求写出今天课堂上学到的所有知识点。你只写了一句话今天上了数学课。这句话完全正确没有一个字是错的。那么这篇作文应该得满分吗大多数人的直觉告诉你当然不行这个同学几乎什么都没写信息量约等于零。然而当前主流的AI评估体系给出的答案却是——可以满分。这正是这篇研究的核心发现所揭示的荒谬之处。目前业界广泛使用的忠实度faithfulness评估方法本质上只在检验一件事AI说的话里有没有假话。只要AI说的每句话都有依据评分就高至于AI有没有把该说的都说了这套方法压根不管。研究者把这种现象称为奖励弃权——一个AI只要聪明地选择说得少几乎可以在现有评估体系下获得接近满分的忠实度得分哪怕它把最重要的信息全都藏着掖着。这就好比一个侦探向委托人汇报案情只说了案发地点是北京然后闭口不谈凶手是谁、作案动机是什么、关键证据在哪里——这个侦探说的没有错但几乎毫无价值。二、赛车数据找到完美的侦案现场要证明这个漏洞确实存在研究团队需要找到一种特殊的测试场景。普通的AI评估任务有一个天然缺陷我们永远无法确定应该说的所有事实究竟有多少条因为没有人能完整列出每一个相关事实。这就像侦探无法在事先不知道案情的情况下评判汇报是否完整。研究者找到的突破口是一级方程式赛车F1的赛事数据。F1赛事产生的数据天然具备一个极其罕见的特性对于每一个战略决策比如轮胎更换时机、超车策略等所有相关的核心事实都可以从官方遥测数据中被完整、确定性地推导出来。换句话说对于维斯塔潘在第12圈换了中性胎这个事件研究者能够事先列出每一个需要提及的关键事实换胎圈数、轮胎型号、换胎前后的位置变化、时间差等等。这套完整的事实清单正是评估AI说全了没有所必需的基准——研究者将其称为完整神谕complete oracle。具体来说研究团队利用FastF1这个官方F1遥测数据接口从2018年到2025年的150场比赛中提取了大量数据通过确定性算法自动推导出比赛中发生的战略事件包括轮胎策略、内线超车undercut、外线超车overcut、防御性跟车on-track defense以及比赛综合点评等五类决策场景。最终这套系统生成了7253个标注实例覆盖英语、西班牙语和葡萄牙语三种语言。数据集按时间分割2018至2024赛季的6004个实例用于训练2025赛季的1249个实例作为严格的测试集确保没有数据泄露。以超车为例一次内线超车的完整事实集合包括两位车手各自的进站圈数、使用的轮胎型号、超车是否成功实施、实施后的时间差变化等。这些事实可以从原始遥测数据中被机械性地、完整性地提取出来——任何一个事实都不会被遗漏任何一个事实都有据可查。这种完整性正是其他领域的AI评估任务所根本欠缺的。三、测量标准准确度与覆盖率缺一不可理解了完整神谕的概念之后研究团队设计了一套双维度的评估体系用一个简单的考试类比来理解这两个维度再合适不过。第一个维度叫做精确率Precision也就是现有忠实度评估方法一直在测量的东西AI说的每一句话里有多少比例是有依据的、正确的。这对应考试里的正确率——你答对了的题目占你作答题目的比例。研究者同时也记录了硬幻觉率hard hallucination rate也就是AI明确说错了的比例。第二个维度叫做召回率Recall也就是覆盖率在所有应该被提及的关键事实里AI实际提到了多少比例。这对应考试里的答题率——你作答的题目占总题目的比例。一个只答了一道题的学生哪怕那道题答对了召回率也极低。然后研究者用统计学中常用的F1分数将两者合并这是一种同时惩罚精确率过低和召回率过低的综合指标——只有两者都高总分才能高。为了提取和验证AI输出中的具体事实性声明研究者开发了两套可互换的事实提取器。一套是基于正则表达式regex的无模型提取器专门针对英语速度快、透明度高另一套是基于大语言模型LLM的提取器能处理任意语言用于西班牙语和葡萄牙语的评估。两套提取器共用同一套事实类型定义输出可以相互比较从而验证评估结果不依赖于提取工具的选择。对整套评估体系的可靠性研究者做了两重验证。第一重是对照扰动测试用一个只输出已知真实事实的确定性模板生成207个实例忠实度得分达到完美的1.000再向模板中注入已知的错误事实得分立刻跌至0.593被正确惩罚。第二重验证是让独立的大语言模型GPT-5.5与提取器不同家族充当评审对120份解释进行人工判断自动评分与评审结果的相关系数在0.54至0.55之间证明两者方向一致且自动评分更为严格。四、实验结果最精确的AI反而垫底实验设置是让五个当前最顶级的AI模型以零样本方式不做任何针对性训练完成任务OpenAI的GPT-5.5和GPT-5.4-mini、xAI的Grok-4.3、谷歌的Gemini-2.5 Pro以及DeepSeek-V3.2。每个模型的输出都用前述的双维度指标进行评分分别在英语、西班牙语、葡萄牙语三种语言下进行测试。结果令人深思。以葡萄牙语结果为例Grok-4.3的精确率最高达到0.887——这意味着它说的话里有88.7%是有依据的是所有模型里最诚实的。如果你只看这一个数字Grok-4.3无疑是最好的模型。然而当研究者同时考察召回率画面完全颠覆了Grok-4.3只覆盖了46.2%的关键事实也就是说超过一半应该被提及的重要信息它选择了沉默。这使得它的F1综合得分仅为0.608在所有模型中排名垫底。相比之下DeepSeek-V3.2在葡萄牙语下的精确率是0.855比Grok-4.3低了三个百分点——但它的召回率高达0.495信息量远比Grok-4.3丰富。GPT-5.5在葡萄牙语下精确率0.886召回率0.511综合F1为0.648反而排在Grok-4.3前面。这个排名反转在英语和西班牙语下同样出现具有高度一致性。简单来说那些看起来说话最谨慎、最不犯错的模型恰恰是因为它们说得太少了。它们学会了如何在现有评估体系下取得高分——只说那些万无一失的事实把有风险的内容一律省略。这正是所谓的奖励弃权效应在真实模型上的体现。在每个实例的平均声明数量上这种差异也清晰可见。DeepSeek-V3.2在英语下平均每个回答包含9.6个可验证声明而Grok-4.3在葡萄牙语下仅有4.3个。前者话多但更完整后者话少且精准但从实用价值的角度看前者才是更好的战略解释工具。五、多说就能解决问题吗一个有趣的反驳被直接推翻一个听起来很合理的质疑是也许这些模型说得不够完整只是因为提示词没有明确要求它们说完整换句话说也许只需要在给AI的指令里加一句请把所有相关事实都说出来问题就迎刃而解了研究者直接用实验回答了这个质疑。他们设计了两套提示词一套是默认的中性提示只要求模型用数据解释决策不给任何长度或完整性要求另一套是明确的全覆盖提示明确要求模型陈述每一个可支撑的事实包括进站圈数、轮胎型号、停站次数、动作及结果、时间差、赛位等。结果出乎意料要求完整性不仅没有关闭覆盖率差距平均召回率反而从0.60下降到了0.47五个模型中只有两个在全覆盖提示下提高了召回率。额外产生的冗长内容没有增加关键事实——模型用更多的文字填充了不重要的细节关键事实的覆盖率反而下滑了。精确率也随之付出了代价部分模型在更宽泛的发言中引入了更多无法核实的声明。这个结果说明低覆盖率是模型的系统性行为模式不是提示工程问题。这也说明单一维度的忠实度分数对于这种提示敏感性完全盲目——它看不到召回率的上下浮动无法反映模型在不同指令下实际信息完整性的变化。六、换个领域同样的漏洞如约出现为了证明这不是F1数据集特有的现象研究团队在第二个完全不相关的领域复现了同样的效果美国国家海洋和大气管理局NOAA发布的公开天气预报数据。天气预报记录天然具备完整性每一条记录包含温度、风速、降水概率、天空状况等有限数量的核心事实一个好的天气播报应该覆盖所有这些信息。研究者用同样的五个AI模型基于150条天气记录每种语言生成天气播报再用同样的精确率召回率框架打分。结果再次出现了排名分歧。在所有语言中精确率最高的模型依然不是召回率最高的模型按精确率和按F1的排名依然不一致。Grok-4.3在葡萄牙语下的精确率高达0.975几乎无可挑剔但召回率仅为0.503F1仅0.664。而DeepSeek-V3.2在英语下精确率0.864但召回率高达0.850F1达到0.857综合表现远胜前者。这个结果还揭示了一个有趣的规律天气领域的覆盖率差距比F1领域小一些因为一条天气记录只有少数几个核心事实遗漏的空间相对有限。相比之下F1战略决策涉及的可验证事实更多遗漏的空间更大因此覆盖率差距也更为显著。这本身就是一个有意义的发现一套评估体系的覆盖率惩罚力度应该随着应该说的事实数量的增加而增加而不是一刀切地只看精确率。七、一个专门针对这个问题的生成方法除了揭示问题研究者还提出了一套改进AI生成质量的方法称为验证器引导的生成verifier-guided generation。这套方法的工作方式类似于一个严苛的编辑对稿件进行多轮修改。具体流程是先让AI生成一份解释然后运行结构化验证器找出两类问题——第一类是说错了的声明被验证器判定为与数据矛盾第二类是遗漏的事实完整神谕里有但AI没提到的关键信息。两类反馈都被整理成具体的修改指令喂回给AI让它根据反馈修改解释。这个循环迭代几轮直到输出趋于稳定。这套方法有一个关键特点它完全不需要参考文本gold reference text只需要结构化数据。这意味着它可以被接入任何AI模型作为无需额外训练的改进手段。在将其应用于GPT-5.4-mini的测试中英语精确率从0.640提升至0.881提升幅度相当显著。同时由于反馈信号明确包含了被遗漏的事实召回率也得到了同步改善——这是现有精确率改进方法无法实现的效果因为它们的反馈信号里根本不含遗漏信息。八、小模型经过专门训练能超过大模型吗研究团队还做了一组对照实验用来探讨一个现实问题小型的、经过专门训练的模型能不能在这种任务上超过大型的通用模型实验对象是Qwen2.5-3B一个只有30亿参数的轻量模型相比那些万亿参数级别的前沿模型它小得多。研究者先测试了它的零样本表现不做任何针对性训练精确率为0.825召回率为0.666F1为0.737——已经是一个相当不错的起点。然后研究者用F1战略数据对其进行了低秩适应LoRA微调让它学习如何生成包含完整关键事实的解释。微调后的结果令人印象深刻精确率飙升至0.995召回率达到0.968F1达到0.982——不仅超过了同测试集上所有前沿大模型而且两个维度都接近完美。这是整个研究中F1分数最高的系统。然而研究者对此保持了清醒的判断。他们指出这种近乎完美的得分来自于模型学会了模板模仿训练数据本身是用确定性模板生成的包含了所有需要陈述的关键事实。模型学到的是如何复现这种模板化的结构而不是真正理解了每个决策的战略含义。一旦遇到训练分布之外的场景这种优势可能会大幅缩水。尽管如此这组结果仍然证明了在聚焦的特定领域精心设计的小型模型确实可以在精确率和召回率两个维度上同时击败通用大模型。九、评估工具本身可信吗由于评估中使用了GPT系列模型作为事实提取器而被评估的模型中也包括GPT-5.5研究者必须正视一个潜在问题同一家公司的模型充当自己评分员会不会造成评分偏高为了排除这种可能研究者用两套独立工具重新对同一批生成内容打分。第一套是完全无模型参与的正则表达式提取器专门针对英语透明度高、不依赖任何神经网络。它与LLM提取器在系统排名上的斯皮尔曼相关系数为0.80在单个实例层面的皮尔逊相关系数为0.50564个样本两者指向同一个最佳模型。第二套是来自完全不同家族的DeepSeek-V3.2作为提取器覆盖全部三种语言。这一对比的结果更为惊人系统级别的斯皮尔曼相关系数达到1.00即两套提取器给出了完全一致的系统排名单实例皮尔逊相关系数0.821090个样本比自动评分与独立人工评审的相关性还高。更重要的是在所有这些对比中GPT-5.5这个与提取器同源的模型在任何一套评估下都没有排名第一证明评估体系没有偏向自家模型。十、这套评估体系有哪些局限研究者在论文中坦诚地列出了这套方法的边界条件这部分值得仔细理解。首先召回率的分母——也就是应该说的所有事实——是由确定性算法从遥测数据中提取的这套算法本身是高精度的但并非穷尽性的。例如它能捕捉到进站圈数、轮胎型号等但可能错过某些边缘情境下的战略细节。所以召回率衡量的是覆盖了算法认定的关键事实的比例而不是覆盖了宇宙中所有相关事实的比例。其次事实提取器的覆盖范围受限于其设计的事实类型。对于模式之外的内容——比如模型在解释中提到了一个没有出现在给定上下文中的车手名字并给出了错误的战略意义归因——验证器根本无法识别这是个问题因为这类断言不在它的检查类型里。研究者用了一个生动的例子在一次两辆车互动的防御场景中有一个模型提到了被保护的队友名字维斯塔潘并暗示这场防御对积分榜产生了关键影响——但这两个信息都不在给定的上下文中。验证器对此无动于衷该模型在这个实例上仍然得到了完美的精确率分数。这说明基于模式的验证系统只能检验它预设类型的声明超出模式边界的虚构内容是它的盲区。此外英语测试集中两个使用Azure AIServices端点的GPT模型有大约三分之一的英语输入被平台内容过滤器拦截同一批输入对两个模型的影响完全一致所以是输入触发的不是模型行为。这批数据被从评分中剔除在表格中以上标标注。西班牙语和葡萄牙语几乎不受影响这些语言的数据承载了同样的研究结论。研究者也提醒推理模型需要更大的输出token预算否则内部推理链可能会占据大量空间导致最终答案被截断——这提醒我们评估流程本身的配置和被评估的模型一样需要仔细审计。归根结底这项研究揭示的问题比它的领域边界重要得多。用来判断AI有多诚实的评分体系长期以来只盯着AI说了什么完全不管它藏了什么。这就像一个法庭只审查证人说出口的每句话是否真实却不追问他是否隐瞒了关键证词。这种评估盲区在实践中产生了真实的扭曲按照现有标准最诚实的模型可能恰恰是那个提供信息量最少的模型而那些真正尝试完整回答问题的模型反而会因为偶尔说错而被惩罚。研究者通过F1赛车遥测数据这个罕见的完整神谕第一次把这种扭曲量化地展示出来并在天气数据领域复现了同样的效果证明这是评估方法论层面的普遍问题。这对普通用户意味着什么当你依赖AI助手来总结一份报告、解释一个合同条款或者分析一份财务数据时你真正需要的不仅仅是AI没说错而是AI把重要的都说了。如果我们用来评估和选择AI的标准只检查前者我们就可能一直在为谨慎的沉默付出信息匮乏的代价却还以为自己得到了可靠的答案。有兴趣深入了解完整研究细节的读者可以通过论文编号arXiv:2606.09376查阅原始文献。QAQ1现有的AI忠实度评估指标为什么会奖励弃权A现有的忠实度评估只测量AI说出的每句话是否有依据精确率不检查AI是否遗漏了重要信息召回率。结果就是一个AI只要少说话、只说最安全的事实就能获得接近满分的忠实度评分哪怕它把最关键的信息全部省略了。Q2F1赛车遥测数据为什么适合用来测量AI的覆盖率A因为F1赛事数据具备完整神谕的特性——对于每一个战略决策所有应该被提及的关键事实如进站圈数、轮胎型号、时间差变化都可以从官方遥测数据中被完整、确定性地推导出来形成一个可以精确计算遗漏比例的完整事实清单这是普通AI评估任务中极难具备的条件。Q3Grok-4.3的精确率最高为什么综合评分反而垫底AGrok-4.3在葡萄牙语测试中精确率高达0.887但只覆盖了46.2%的关键事实超过一半的重要信息被省略。综合精确率和召回率的F1分数仅为0.608在所有模型中排名最低。高精确率掩盖了它信息量严重不足的问题这正是只看精确率的评估体系所无法发现的缺陷。