KAIKAKU研究揭示盲区:多个AI模型组团真的比单个更强吗?

📅 2026/6/30 1:39:25
KAIKAKU研究揭示盲区:多个AI模型组团真的比单个更强吗?
这项由KAIKAKU机构完成的研究于2026年6月25日以预印本形式发布论文编号为arXiv:2606.27288v1感兴趣的读者可通过该编号查阅完整论文。当越来越多的企业开始把多个AI模型拼在一起用期待三个臭皮匠顶个诸葛亮的时候这篇研究冷静地问了一个几乎没人认真问过的问题这种组合到底什么时候真的有用---一、故事从一个常识开始在很多人的直觉里多个AI模型一起工作总比一个强。就像让三位医生会诊总好过只听一个医生的意见。过去几年AI领域确实流行起一种做法叫做模型路由或混合专家系统——系统里有很多模型根据问题类型把任务派给最擅长的那个或者让多个模型投票少数服从多数或者从便宜的模型开始不够好再升级到贵的。这套做法听起来很合理而且业界也有一个公认的判断标准**两个模型之间的错误相关性**也就是它们犯错的习惯有多像。如果两个模型总是在同样的题目上犯错那组合起来也没什么用反过来如果它们各有各的短板组合就有价值。这个叫做ρrho的数字成了行业里判断要不要组合模型的核心指标。然而这篇研究发现ρ是个根本性的误导。它告诉你的不是你真正需要知道的东西。---一、真正的天花板藏在哪里研究者引入了另一个数字叫做**βbeta**——所有模型同时答错同一道题的概率。用一个直觉上很清晰的比喻来理解假设你组建了一个由10位专家组成的顾问团来回答问题。无论这个团队的投票机制多么精妙也无论你的路由规则多么聪明有一类问题是谁也救不了的——那就是10位专家全部答错的题目。在那些题目上不管你选哪个专家、让他们怎么投票结果都一样错。这个全员翻车率就是β。而整个多模型组合系统能达到的最高准确率就是**1减去β**。也就是说如果10%的问题所有模型都答不对那无论你的组合策略多精妙系统准确率的天花板就是90%。这个结论本身并不复杂但它的含义很深刻在你花大价钱设计路由系统、训练分发器、调优投票规则之前你应该先把β测出来看看这个天花板在哪。如果天花板很低再聪明的组合都是徒劳的。---二、ρ为什么看不见β问题的核心在于ρ和β是两回事而且ρ根本无法推算出β。这里有一个微妙但关键的数学事实即使两个、三个甚至十个模型它们两两之间的错误相关性也就是ρ完全相同它们全员同时犯错的概率β仍然可以差天差地。换句话说你知道每两个模型之间的配对关系并不代表你知道所有模型的集体行为。用一个生活类比来理解假设你有三位朋友每两个人之间的脾气相合程度相同。但这并不意味着三个人聚在一起时的相处模式是可以预测的——三人关系有一种两两关系中不存在的集体特质。模型的错误模式也一样群体行为有超出两两关系的结构。研究者严格证明了这一点对于三个或更多模型仅凭两两之间的相关性在原则上就无法确定β。这不是数据不够多的问题而是信息论层面的根本局限——任何基于ρ计算出来的β预测都是有偏差的而且随着模型数量增加这个偏差会越来越大。---三、现实数据里到底有多严重研究团队付诸实践花费约270美元在涵盖21家提供商的67个前沿AI模型上做了大规模测试其中包括GPT-5.5、Claude Opus 4.8、Gemini 3.1 Pro、Grok-4.3、DeepSeek V4、Qwen3.7-Max、Kimi K2.7等当下最强的模型。测试用的题目分几类开放式数学竞赛题MATH-500和更难的MATH-Hard Level-5、研究生级别科学问题GPQA-Diamond、以及执行评分的编程竞赛题。在数学题上结果相当令人清醒。在330道题目中所有67个模型同时答错的比例β是5.2%。这意味着无论你的组合策略多完美这批模型在数学上的准确率天花板约为94.8%最强单个模型的准确率是83.6%而每次查询的理论最优也不过94.8%。真正可以争取的提升空间其实相当有限。更关键的是研究者还做了一件事用行业常用的方法根据ρ来预测β。结果是即便使用了正确的、经过校准的统计方法称为四分相关或四分点相关系数这是比简单相关系数更精确的工具预测出的β是0.021而实际测到的β是0.052真实值是预测值的约2.5倍90%置信区间为1.7到3.4倍。这个差距意味着用ρ来评估多模型组合的价值系统性地高估了它能带来的提升空间。更重要的是研究者尝试了不同的统计模型来解释这个差距包括考虑了所有67个模型两两之间的完整相关结构67×67的矩阵结果仍然低估了实际β差距维持在2.25倍左右。这说明问题不是统计模型不够复杂而是存在一种所有模型同时失败的共同失效原子——某些题目不管模型多强、多多样都会集体答错而这种集体失效的概率任何基于两两关系的统计模型都无法完全捕捉。---四、集体失智随池子变大而加剧研究者还做了一个很有说服力的实验把67个模型随机抽取不同数量的子集比较每种规模下真实β与预测β的比值。结论是当只有2个模型时这个比值是1也就是说预测是准确的。但随着模型数量增加比值单调递增到67个模型时中位数达到2.5而且几乎所有随机抽取的子集都显示出同样的趋势。这说明ρ低估β不是某几个特殊模型组合的偶然现象而是一个系统性规律你把越多模型放进池子ρ所代表的多样性对于估计真实集体失败率就越不可靠。直觉上的解释是每新增一个模型它和其他每个模型两两之间的相关性是可以测量的。但整个群体全员同时失败的概率取决于一种高阶的集体结构——类似于这道题有一种根本性的困难让所有模型都绕不过去而这种集体难题随着模型池扩大会更难被察觉因为两两的相关性稀释了这个信号。---五、花钱前先拿到上限证书研究者提出了一个实用工具叫做可实现性证书。原理很简单在你花钱训练路由器、部署多模型系统之前先从你要处理的题目中抽取一批样本让所有候选模型都答一遍数出有多少题目是所有模型全部答错的用统计学方法Clopper-Pearson区间估计得出β的置信区间然后算出最大可能收益的上限。如果这个上限比你的系统运维成本还小那答案就很清晰了不值得。而且这个测试几乎不需要额外花钱因为你要做的只是用你已有的模型跑一遍样本题不需要训练任何新系统。研究者把这套工具做成了一个叫beta_certificate.py的脚本并公开发布任何人都可以拿来用。输入的只是全部答错的题数和总题数以及单个最佳模型的准确率输出的是任何组合策略所能超越单个最佳模型的最大理论上限。---六、实际路由器的表现研究团队不只停留在理论层面他们还真的训练了多个路由器来验证。在15个模型、多领域混合题目的实验中每次查询的理论最优路由比单个最佳模型高出4.4个百分点。但当他们实际训练了一个基于文本特征的路由器之后这个路由器只比单个最佳模型高出0.5个百分点左右而且置信区间横跨零值说明这点提升很可能只是统计噪声。他们还尝试了更强的路由方案基于梯度提升的正确性预测器、直接预测最佳模型的多分类器甚至用GPT-5-mini作为路由决策的AI——给它看每道题让它在了解所有模型特长之后选择最合适的模型。结果是这个AI路由器100%的时间都选了单个最好的模型对整体准确率的贡献为零。为什么路由器学不到什么因为当最好的几个模型不一致时这道题的正确答案在哪个模型手里这个信息往往藏在答案本身里而不是藏在问题的文字里。看题目的特征通常无法预测哪个顶尖模型会答对、哪个会答错。---七、两种截然相反的困境在更大规模的测试中研究者发现了一个很有意思的现象不同类型的任务组合模型遇到的障碍完全相反。在开放式数学题上障碍是天花板太低β明显大于零全员失败的概率不可忽视这把整个系统的准确率上限压低了再好的路由策略也无法突破这个上限。这类情况研究者称为天花板约束型。在研究生级别的科学选择题GPQA-Diamond上情况完全相反在130道题的测试中竟然没有出现哪怕一道所有模型全部答错的题目β约等于零天花板是开放的。但这不意味着组合没用——实际上理论上的最优路由比单个最好模型高出15个百分点问题在于这15个百分点完全是可解决的分歧也就是不同模型各有各对的题目只要你能准确判断该选哪个模型就能实现这个提升。但现实中没有一个路由器能做到这一点因为这需要在回答前就知道答案——而这恰恰是路由器无法做到的事。这类情况研究者称为可实现性约束型。这两种困境同样令人悮但原因完全不同。ρ这个指标对两种情况都无能为力——它既无法告诉你天花板在哪也无法告诉你那15%的提升空间到底有没有办法实现。---八、是格式决定了集体失智而非内容研究团队做了一个精心设计的实验专门证明集体失败不是数学或编程题的专属现象而是开放式回答这种格式本身带来的。他们把79道GPQA-Diamond科学题这是研究生级别的物理、化学、生物混合题先以多项选择题的形式让模型回答再把完全相同的题目改成开放问答去掉选项让模型自由作答然后用五个AI裁判组成的评审团来判断开放式回答对不对。多项选择版本β约等于零所有模型全部答错的题目接近于没有平均准确率66%最佳模型91%。开放问答版本β跳到了12.7%10道题上所有模型全部答错平均准确率51%最佳模型77%。这个对比的力度在于内容完全相同换的只是答题格式。这说明集体失智的根源不是某个学科有多难而是开放式生成本身带来的不确定性——当没有选项可以锚定答案范围时模型面对的困难会发生质的变化而且这种困难会以一种集体同步的方式爆发出来。这个发现把前面所有的数学和编程结果统一成了一个更简洁的解释不是题目的内容是开放式回答这件事本身让全员失败的概率非零且不可忽视。---九、多样性是把双刃剑研究者还探讨了另一个流行说法模型越多样融合效果越好。他们用15个模型中所有可能的3个模型组合共455种做了测试让三个模型投票少数服从多数。结果是平均来看投票的准确率比三个模型里最好的那个还差。在难题集上平均低了10个百分点在混合题目上低了2个百分点。多模型投票这件事竟然是有害的。原因并不神秘如果三个模型质量差异大那两个差的模型投票否定一个好的模型结果是更差。这就像让三个人投票决定一道数学题的答案其中一个是数学教授另外两个是普通人——普通人的多数票会把教授的正确答案淹没。但有一个关键的前提让结论反转**如果三个模型质量相当**那低相关性的组合确实比高相关性的组合更好。研究者用一个精心设计的实验验证了这一点把多个不同模型错误相关性低约0.42与同一个最好的模型多次采样错误相关性高约0.80做对比在质量相当的前提下前者在从第三个成员开始就稳定超过了后者在60次不同的随机样本划分中全部如此而且平均提升幅度约为2.7个百分点。这个结论很微妙多样性有用但前提是质量对等。在质量差异大的情况下强行追求多样性反而是负担。---十、研究的边界与诚实研究团队对自己工作的局限性相当坦诚。这项研究依赖于可以用程序自动评分的任务比如数学题和编程题而对于更开放的生成性任务比如写作质量、解释能力很难做到客观评分这部分还是个未解决的问题。在编程任务上虽然全员失败的概率β7.9%和ρ低估的现象都得到了验证但只有5道题是全员答错的样本相对有限确切的倍数3.1倍的置信区间很宽1.5到6.2倍精确数值仍有不确定性。研究者在文中明确标注了这一点。另外路由器的训练和测试只在15个模型的较小样本上完成而那个67个模型的大规模测试由于没有记录每道题的具体输入提示无法在上面训练和测试路由器大规模测试的结论依靠的是β证书而非端到端的路由实验。这个局限性研究者同样直接说明了。---说到底这项研究把一个大家习以为常的操作——把多个AI模型组合使用——放在了一个更严格的框架下审视。结论不是多模型一定没用而是你问错了问题。行业一直在问这些模型有多不同但真正应该问的是这些模型同时失败的概率是多少以及就算理论上有提升空间现实中有没有办法实现它。对于普通用户和企业决策者来说这意味着在决定是否投入多模型系统之前花一点时间测一测β看看天花板在哪可能比反复调优路由策略更有价值。如果你在处理的是开放式数学题、代码生成这类任务全员失败的问题会真实存在而它不是多加几个模型能解决的。真正能帮助系统变得更好的不是更多的模型而是能在不同问题上犯不同错误的模型——这个道理听起来简单但真正去量化它需要的不是ρ而是β。有兴趣深入了解的读者可通过arXiv:2606.27288v1获取完整论文。---QAQ1什么是多模型路由系统普通用户会用到吗A多模型路由系统是指在多个AI模型中自动选择最合适的那个来回答问题的机制类似于把问题派给最擅长的专家。企业用户在部署AI服务时经常用到比如同时接入GPT、Claude、Gemini等模型然后根据问题类型自动分发。个人用户目前接触较少但随着AI应用普及这类系统会越来越常见。Q2β和ρ的区别是什么为什么β更重要Aρrho衡量的是两个模型犯错的相似程度——它们是不是总在同样的题上出错。β衡量的是所有模型同时全部答错同一道题的概率。区别在于ρ只反映两两之间的关系而β反映整个群体的集体行为。由于任何多模型系统都无法纠正所有模型同时答错的题β直接决定了系统准确率的天花板而ρ根本做不到这一点甚至在原则上也无法从ρ推算出正确的β。Q3开放式问答为什么比选择题更容易让所有AI模型同时答错A选择题提供了有限的选项模型即便不确定也能在几个答案里锁定范围犯错的方式被约束了。开放式问答没有这个约束模型需要从零生成答案面对的不确定性更大。当一道题本身有根本性难点时这种不确定性会以一种集体同步的方式爆发导致所有模型同时失败——就像去掉了参考答案提示后学生们反而会集体往同一个错误方向走偏。