卡内基梅隆大学与Meta联手发现AI训练中被忽视的隐患

📅 2026/6/30 1:40:37
卡内基梅隆大学与Meta联手发现AI训练中被忽视的隐患
这项由卡内基梅隆大学与Meta超级智能实验室联合开展的研究于2026年6月以预印本形式发布论文编号为arXiv:2606.21795v1感兴趣的读者可通过该编号查询完整原文。**一个被忽略的根本问题**假设你是一位餐厅老板需要招聘一位点评员来评判厨师们做的菜以便筛选出最好的厨师。这位点评员的任务非常明确好菜打高分差菜打低分。然而如果这位点评员在面对两道同样美味的菜时仅仅因为一道用了白色盘子、另一道用了黑色盘子就给出截然不同的分数那他的评判就会带偏整个厨师培训体系。这正是当今人工智能训练中普遍存在、却鲜少被认真对待的问题。在AI的世界里这位点评员叫做奖励模型Reward Model简称RM它的职责是评判AI的回答好不好然后帮助AI通过强化学习不断改进。研究团队发现大量被广泛使用的奖励模型都患有严重的选择困难症——对于同样好的答案它们会给出差异悬殊的分数。这个毛病表面看起来不起眼实则会让AI学偏方向走上一条歪路。**一、奖励模型到底是什么它又出了什么问题**在AI的强化学习训练中有一类问题的对错非常清晰比如数学题——答案要么对要么错程序要么能运行要么崩溃可以用程序自动验证。但生活中大量问题并没有这种唯一标准答案比如帮我写一首祝福语或者解释一下量子力学。这类问题既无法用程序自动判对错也不可能每次都请真人评估于是奖励模型就应运而生——它是一个被训练来模仿人类判断的AI系统会给每一个回答打一个连续的分数。连续分数听起来很美好。分数越细腻理论上就越能区分很好和非常好之间的微妙差异。然而研究团队指出这种细腻本身就是个陷阱。以一道典型的问题为例如果有人问说出一位2019年温布尔登网球赛的冠军那么塞雷娜·哈勒普女单冠军、诺瓦克·德约科维奇男单冠军、胡斯·苏韦女双冠军等人其实都是同等正确的答案真实价值True Reward全部应该是满分1.0。但当研究团队把这些答案喂给两款当下最流行的奖励模型——Skywork V1和ArmoRM时却得到了令人困惑的结果。Skywork V1给德约科维奇打了-1.3分却给卡巴尔打了-15.4分两者相差十倍以上ArmoRM也好不到哪去各答案之间分数参差不齐尽管它们同样正确。这就像那位挑剔的点评员他明明知道两道菜都很好吃却硬要用盘子颜色来分高下还把这个主观偏好当成了评判厨艺的标准。研究团队把这种现象命名为过度敏感性Oversensitivity专指奖励模型对同等质量的答案给出不同分数的倾向。**二、权威榜单为何没能发现这个问题**业界最权威的奖励模型评测榜单RewardBench目前最顶尖的模型在第一版上能达到94%的准确率第二版也有84%。这些数字看起来相当亮眼似乎奖励模型已经做得很好了。但研究团队发现这些榜单其实存在一个根本性的盲点。RewardBench的测试方式本质上是给模型呈现两个答案让它判断哪个更好。问题在于测试集里默认总有一个更好——换句话说榜单几乎从不考虑两个答案同样好的情况。这就好比只测试点评员在面对一道精心烹制的法式大餐和一道隔夜剩饭时能否做出正确判断却完全不测试他能否识别出两道都是精心烹制的大餐。RewardBench第二版虽然加入了一个Ties平局子集来考察这种情况但这个子集在总分中只占1/16的权重影响微乎其微。正因如此那些过度敏感的奖励模型依然能在榜单上获得很高的分数让人误以为问题已经解决了。研究团队基于此提出了两个全新的衡量指标来更全面地评价奖励模型的质量。第一个叫区分能力Discriminative Ability衡量的是当一个答案真的比另一个好时奖励模型能否正确地给出更高的分数第二个叫特异性Specificity衡量的是当两个答案同样好时奖励模型能否给出相同或相近的分数特异性正是过度敏感性的反面。以往大家只关心区分能力却完全忽略了特异性。而这两者都很重要缺一不可。准确率Accuracy其实等于这两者的加权组合。当所有答案的质量都不一样时准确率就等于区分能力——因为根本不存在同样好的情况需要考察。但现实中有大量问题拥有多个同样好的答案所以准确率只考察区分能力是不够的特异性的缺失会在训练中造成真实伤害。**三、过度敏感是怎么产生的又为何无法被平均掉**研究团队用严格的数学模型来解释过度敏感性的根源。可以把奖励模型给答案打的分数理解为两部分之和一部分是答案真实质量对应的分数另一部分是来自各种噪声的随机扰动。这种噪声来自哪里首先人类对回答的偏好有时并不完全取决于质量本身而是受到个人背景、主观解读、甚至无意识偏见的影响——研究人员称之为评分不确定性Rating Indeterminacy。其次奖励模型的训练过程并不完美它在学习什么是好回答的同时也会把人类评判中的这些偏见和随机性一起学进去。关键在于研究团队证明即使这种噪声足够小小于相邻质量等级差距的一半奖励模型依然能保持完美的区分能力——也就是说真的好答案永远比真的差答案分数高。但与此同时对于两个质量完全相同的答案它们被打出不同分数的概率依然不为零。更糟的是研究团队证明这种过度敏感性不是随机噪声而是一种可学习的信号——AI在训练过程中会主动去发现并利用这种规律朝着奖励模型偏爱的风格靠拢即便那种风格与真正的质量毫无关系。一些人可能会想既然是噪声多采样平均一下不就好了研究团队明确指出这行不通。因为奖励模型里的噪声并非真正随机它实际上是依赖于答案内容的函数——同样风格的答案会系统性地得到更高分数。多次采样的结果还是会收敛到那个带有偏见的分数无法通过平均消除。**四、离散化一把精准的裁剪刀**发现了问题研究团队给出的解决思路非常优雅既然连续分数会带来麻烦那就把它变成离散的等级。这个过程就叫离散化Discretization。继续用餐厅点评的比喻与其让点评员给菜品打0到100的连续分数不如让他只能给出差、普通、好、极好四个等级。这样一来两道同样好的菜就会落在同一个等级奖励模型的过度敏感性就被自动消除了。当然离散化也有代价——如果等级划分太粗糙会损失区分能力。比如把所有菜都归入好和差两档那么好和极好之间的差别就彻底丢失了。研究团队在数学上严格证明在适当条件下存在某种离散化方案能够在几乎不损失区分能力的同时将过度敏感性降至零。在二元质量模型只有好和差两档的理想情况下如果把分数阈值设在好答案平均分和差答案平均分的正中间离散化后的奖励模型能同时实现完美的区分能力和完美的特异性综合得分达到满分100%。而同样条件下原始的连续奖励模型综合得分最高只能达到83.3%而且随着容忍度趋近于零差距会越来越大。**五、如何在实践中实现离散化蒙特卡洛随机失活**理想的离散化需要知道分数的分布情况才能找到合适的阈值。但在真实场景中我们不可能预先知道这些分布。研究团队提出了一套完全不需要重新训练模型的实用算法叫做奖励聚类Reward Clustering。这套算法的核心技巧叫做蒙特卡洛随机失活Monte Carlo Dropout简称MC Dropout。每个神经网络模型内部都有无数个神经元正常推理时所有神经元都参与工作。而随机失活是指在推理时随机关掉一部分神经元就好像让点评员喝了点酒判断会稍微有些飘忽。对同一道菜运行多次这样的微醺判断如果每次的分数都差不多说明这道菜的品质相当确定如果每次分数差异很大说明点评员自己也拿不准这道菜的评分存在较大的不确定性。通过收集同一个答案在多次随机失活下的分数样本算法可以估计出该答案分数的均值和方差。知道了每个答案分数的均值和方差就可以计算出任意两个答案的分数在统计上是否真的不同——如果两个答案的分数分布高度重叠就认为它们质量相当划入同一个聚类如果分布相差很远就认为它们质量有别划入不同聚类。最终每个聚类会被赋予一个整数等级作为该批次中所有答案的最终离散奖励。整套算法由四个超参数控制分数差异的最小阈值、两个答案被认定为质量相当所需的最低概率、随机失活的比例以及采样次数。研究团队在实验中固定使用2%的随机失活比例和4次采样发现增加采样次数对效果几乎没有影响——4次就够用了。算法基于OpenRLHF框架实现在8张H100 GPU的节点上运行时每分钟处理的提示数从约64条降至约56条计算开销增加了约15%在工程上是可以接受的代价。**六、实验验证三个层次的考验**研究团队从三个层次对奖励聚类算法进行了验证每一层都比上一层更接近真实世界。第一层验证使用了RewardBench 2中的Ties子集。他们对Skywork V1、Skywork V2、GRM和ArmoRM四个主流奖励模型分别测试了原始输出、截断尾部分数、集成多次采样结果、简单二元离散化以及他们提出的奖励聚类五种方法。结果显示奖励聚类在所有四个奖励模型上都一致地提升了区分能力和特异性的平均值。以GRM为例原始方法的平均综合分数为69.2奖励聚类后提升至80.6提升幅度相当显著。值得注意的是单纯的集成对多次随机失活的分数取平均并不能改善特异性——这说明Monte Carlo Dropout本身并不是魔法关键在于用它来估计方差并进行聚类这个步骤。第二层验证是在一个精心设计的受控实验中进行的。研究团队构建了一个混合效应数据集90%或80%的偏好对来自主要目标指令执行是否正确剩下10%或20%的偏好对来自次要目标使用模糊性语言如可能、也许同时避免使用肯定性语言如非常、绝对。他们在这个数据集上训练了奖励模型然后用原始奖励和离散化奖励分别训练策略模型观察两者的差异。实验结果非常鲜明。用原始奖励训练时模型在前期确实会提升指令执行准确率但随着训练步骤增加它逐渐学会过度使用模糊性语言即便在80%的数据都在强调指令执行的情况下最终的指令执行准确率仍然出现了明显下滑。在图4展示的具体案例中面对一道谜语题用原始奖励训练的模型在第112步时给出的答案塞满了possibly、could be、may be等模糊词汇而用离散化奖励训练的模型在第64步就收敛到了一个简洁清晰的正确答案。用于对比的截断方法Clipping在90%主要/10%次要的情况下表现尚可但在80%主要/20%次要的情况下彻底崩溃——它把主要奖励的顶端也截掉了反而加剧了偏差。第三层验证是最接近真实场景的实验。研究团队用Llama 3.1 8B Instruct作为基础模型使用30K条来自IFEval、MATH、GSM8K数据集的有标注提示以及30K条来自WildChat的完全无标注提示用四个主流奖励模型的原始版本和离散化版本分别训练并在IFEval指令执行、MATH数学题、GSM8K数学应用题三个测试集上进行评估同时测试了两种KL惩罚系数0.01和0.05和三个随机种子。完整的实验数据展示了一个一致的规律在24个对比实验中离散化方法有10个达到了显著提升超过一个标准差另外14个持平没有任何一个出现显著退步。以ArmoRM加低KL惩罚系数为例原始奖励在IFEval上的平均分是53.0离散化后提升至77.8提升幅度超过24个百分点在GSM8K上原始奖励下只有3.6分模型完全崩溃离散化后回到了2.2分——虽然两者都不高但原始奖励导致了更彻底的策略退化。总体而言当KL惩罚系数较低时模型有更大的空间偏离基础模型离散化的优势最为明显KL惩罚较高时两者差距缩小但离散化依然不差。**七、理论上的严格保证**研究团队不止于此他们还在更宽松的噪声假设下高斯分布噪声而非有界均匀分布证明了离散化的优越性。在高斯噪声模型下原始奖励模型不可能保持完美的区分能力但离散化依然能在几乎所有实用的容忍度范围内容忍度小于1/√2实现比原始奖励更高的特异性。研究团队通过精细的数学分析将信噪比的取值范围分为三个区间分别用不同方法证明了在全部信噪比下离散化的综合得分严格优于原始奖励。只有当信噪比趋近于无穷大时——意味着奖励模型本身几近完美——两者的差距才趋向于零离散化的价值才会消失。换句话说当奖励模型越差噪声越多离散化的收益越大。**八、与其他方法的比较以及研究的局限**研究团队将奖励聚类与几种直觉上合理的替代方案进行了比较结果证实了奖励聚类的独特价值。简单地截断尾部分数Clipping在某些情况下有效但在噪声比例较高时反而适得其反对多次随机失活结果取均值的集成方法Ensembling几乎没有效果因为它没有利用方差信息简单地以中位数为阈值进行二值化Binary Thresholding虽然能提升特异性但会严重损失区分能力因为它强制把所有答案都归为两类抹去了所有的细粒度信息。研究团队也坦诚地指出了研究的几个局限性。目前所有的实验都只在Llama 3.1 8B Instruct这一个基础模型上进行也只使用了GRPO这一种强化学习算法泛化到其他模型架构和训练算法的情况有待验证。理论推导部分假设奖励模型是效用函数的线性变换加噪声且噪声在各质量等级间方差一致这在现实中可能并不成立。此外理论部分重点分析了二元效用函数只有好和坏两档而现实中大多数问题有更多个质量等级虽然研究者认为结论可以推广但尚未在论文中正式证明。说到底这项研究揭示的是一个相当基础却长期被忽视的问题我们用来训练AI的评分员自己就有毛病而且这个毛病不是随机错误而是会被AI系统性地学习和放大。研究团队给出的解决方案——奖励聚类——既不需要重新训练奖励模型也不依赖任何外部工具只需要在打分环节加一步聚类处理代价极低收益却相当可观。这对于所有关心AI安全性和可靠性的人来说都是一个值得认真对待的信号也许我们不仅要追问AI学到了什么更要追问教AI的那位老师自己打分打得公平吗。如果有兴趣深入了解完整的数学证明和实验细节可以通过论文编号arXiv:2606.21795查询原文。QAQ1奖励模型的过度敏感性是什么意思为什么会产生A奖励模型的过度敏感性是指当两个AI回答的质量实际上完全相同时奖励模型却给出了截然不同的分数。产生原因是奖励模型在训练时不仅学到了什么是好答案的规律也把人类评分数据中的主观偏见、风格偏好等无关因素一并学入。这些噪声虽然量级较小但会被AI在强化学习中系统性地发现并利用导致模型朝着与真实质量无关的方向进化。Q2奖励聚类算法需要重新训练奖励模型吗计算成本高吗A奖励聚类完全不需要重新训练奖励模型可以直接对任何现有神经网络奖励模型使用属于训练无关的后处理方法。计算成本方面在8张H100 GPU的服务器上使用奖励聚类后训练吞吐量从每分钟约64条提示降至约56条大约增加15%的时间开销工程上完全可以接受算是代价极低的改进方案。Q3RewardBench榜单上得分高的奖励模型在实际强化学习训练中表现是否也好A不一定。研究团队的实验显示RewardBench等现有评测榜单主要衡量区分能力几乎不考察特异性因此高榜单分数的奖励模型在实际强化学习中依然可能因过度敏感性而导致策略退化。实验中ArmoRM在某些设置下直接让被训练的模型崩溃而它在榜单上的分数并不低。这说明评测榜单和实际训练效果之间存在明显的脱节。