加州大学伯克利分校推出史上最难AI代理测试基准

📅 2026/6/16 17:13:51
加州大学伯克利分校推出史上最难AI代理测试基准
这项由加州大学伯克利分校主导、联合斯坦福大学、密歇根大学、华盛顿大学等数十家高校及产业机构共同完成的研究于2026年6月3日以预印本形式发布编号为arXiv:2606.05405。研究团队超过250名来自学术界和产业界的领域专家共同参与历时数月打造了一个名为Agents Last Exam简称ALE中文意为智能体的最后一考的全新AI评测基准。过去几年人工智能系统接连攻克了一道又一道被认为难以逾越的关卡——从围棋世界冠军到数学奥林匹克金牌再到国际大学生编程竞赛桂冠AI的战绩令人目不暇接。然而每当人们把目光从这些耀眼的头条新闻转向真实的经济世界时却发现一个令人困惑的现象AI在基准测试上的突破并没有转化为各行各业实质性的生产力飞跃。金融、法律、工程、制造……这些占据GDP大头的核心行业依然运转如旧AI的影子在这里若有若无。这究竟是为什么研究团队认为问题的根源在于我们用来衡量AI能力的考卷本身出了问题。现有的AI基准测试就像只考学生背诵课文却不考他们能不能在真实工作中解决实际问题。于是他们决定亲手出一套真正能反映职场实战的考卷——Agents Last Exam由此诞生。一、为什么现有的AI考题都考偏了回到我们熟悉的学校场景。一个学生在课堂上背得滚瓜烂熟月考年年满分但一旦走进真实的工厂车间、医院手术室或律师事务所却手足无措——这样的情况并不罕见。现有的AI测试基准恰恰面临着类似的困境。研究团队系统梳理了市面上最具代表性的AI基准测试发现它们大致落入两个陷阱。一类是知识问答型测试比如大名鼎鼎的MMLU涵盖数万道多学科选择题、GPQA研究生级别的科学难题以及HLE专家级学术问答这些测试能衡量AI知道什么但无法衡量AI能做什么。另一类是操作演示型测试比如OSWorld测试AI操控桌面软件的能力、SWE-bench测试AI修复真实代码错误的能力、WebArena模拟网页操作任务等这些测试虽然引入了多步骤交互但覆盖的行业领域极其有限往往只涉及五六个软件相关领域而且任务来源多为研究人员自行设计而非真实职业场景的还原。最接近真实经济价值的两个基准是GDPval和RLIRemote Labor Index远程劳动力指数前者评估AI在高GDP职业中完成项目级任务的能力后者通过Upwork平台的真实外包任务来衡量AI自动化远程工作的潜力。这两个基准已经走在了正确的方向上但它们依然只覆盖了55个行业分类中的16个和14个而且评分完全依赖人工专家打分——代价高昂难以大规模推广。简而言之所有现有基准在真实性、广度、可验证性三个维度上至少在其中一项上存在明显短板。Agents Last Exam的目标正是要同时打通这三道关卡。二、这张最后的考卷究竟考什么ALE的设计逻辑是以美国联邦劳工部的职业分类体系SOC 2018和职业信息网络O*NET为骨架系统地绘制出现代数字经济中所有主要职业类别然后从中筛选出那些核心工作可以在电脑上完成、依赖专业知识、产出可以客观评估的职业领域最终形成了一个涵盖13个大类、55个细分领域的行业分类体系。这13个大类包括工程与建筑、生命科学、教育与信息、农业与环境、计算与数学科学、健康与医学、交通与安全、心理学与神经科学、视觉与媒体艺术、商业与金融、物理科学、社会科学以及法律。每一个大类下面又细分为若干更具体的专业方向。举几个具体的例子工程与建筑大类下面包括制造与工业系统173个任务实例、航空与机械工程47个、土木建筑与地理空间工程33个等视觉与媒体艺术大类下面包括3D动画与交互媒体133个、音频音乐与后期制作69个等。在这55个细分领域中ALE共收录了1490个可运行的任务实例涵盖960个不同的工作流程。值得注意的是研究团队并非闭门造车——每一个任务都来自真实的领域专家是专家们在日常工作中实际完成过的项目。一位建筑工程师可能提交了一个用SolidWorks将2D蓝图转换为3D模型的完整流程一位生物信息学家可能贡献了一套单细胞RNA测序数据的聚类分析管道一位财务分析师可能上传了一份SEC 10-K财务报告的结构化解析任务。为了确保任务的质量和难度所有提交都要经过严格的五道审核关卡专家招募、任务提交与编辑、初审类似学术论文的同行评审分为大修、小修、边界接受、接受、强力接受五个等级、工程实现由工程团队将专家描述转化为可执行的测试环境、最终质量控制专家委员会的同行评审检验参考输出是否正确、评分标准是否合理校准。只有通过全部五道关卡的任务才能正式进入ALE题库。三、三道入场门槛什么样的任务才算合格既然ALE以真实、复杂、可验证为核心准则那么在设计任务时研究团队为每个准入任务设定了三条明确的标准可以用一场厨艺大赛来理解。第一条标准是真实性。参赛选手必须用专业厨房里真正使用的设备和食材来烹饪而不是用简化版的玩具厨具。具体到AI测试意味着任务必须使用领域专家实际工作中会用到的专业软件和工具。比如建筑设计师通常会使用SolidWorks或Rhino来进行3D建模而不是AutoCAD射频电路设计师会使用Keysight ADS而不是通用的绘图软件。如果一个任务让AI用错误的工具完成工作即使完成了也不能说明AI真正掌握了这个职业的核心能力。第二条标准是复杂性。这道菜必须是一道需要多个步骤、多种技法、耗时数小时才能完成的大菜而不是一道几分钟就能做好的简单点心。研究团队特别强调任务应该是一个完整的端到端工作流程而不是一个单一的操作动作。他们给出了一个反面例子在DaVinci Resolve一款专业视频剪辑软件里应用一个颜色滤镜这只是一个单一的局部操作太简单了。而一个合格的任务例子是把一只奔跑的猎豹融入另一段赛跑视频中——这需要同时完成目标跟踪、抠像去除背景、视频合成和色彩匹配四个相互关联的步骤才算是真正意义上的完整工作流程。第三条标准是可验证性。菜做好了必须能客观地评判好坏而不是靠一句感觉还行来打分。ALE追求的是确定性的评分方式要么直接将输出结果与标准答案进行对比要么有一套清晰的、基于可测量指标的评分准则。反面例子是用RPGMaker设计一个有怪物的RPG游戏——这个任务没有客观的评判标准怪物放哪里、游戏有没有意思全凭感觉。而正面例子是用RPGMaker XP复现游戏mota.exe——这个任务可以通过自动化脚本在相同的游戏操作序列下对比地图几何结构、角色属性和事件状态给出明确的分数。四、AI考场是怎么搭建的每一道ALE题目在技术层面都是一个精心构建的考场环境。用一个熟悉的比喻来理解考生AI系统坐进一间装备齐全的专业工作室工作室里有一台远程云端虚拟机机器上预装了任务所需的所有专业软件工作台上放着任务的输入材料比如设计文件、原始数据、参考资料考生需要在规定时间内完成工作并将成果放到指定的输出文件夹里最后由自动评分程序来判断成果的质量。具体来说每个任务的技术规格由一个名为main.py的核心脚本来定义这个脚本包含三个关键函数。第一个函数load()负责宣布考题告诉AI任务的自然语言描述、所需的计算资源等基本信息。第二个函数start()负责布置考场将虚拟机初始化为一个确定的起始状态把输入文件放到正确的位置启动必要的软件。第三个函数evaluate()负责阅卷打分在AI完成任务后将输出结果与隐藏的标准答案进行比较返回一个0到1之间的分数。虚拟机的文件系统有四个固定的目录input/目录存放AI可以读取的输入材料software/目录存放预安装的专业软件output/目录是AI唯一被允许写入成果的地方reference/目录存放标准答案对AI完全隐藏只有评分程序才能访问。这种设计确保了评测的公平性和可重复性——任何AI系统只要能通过标准的动作接口与环境交互发出命令、操控界面、读写文件就可以接受同样的测试。在评分方式上ALE根据不同任务类型采用了多种模式但始终坚持一个原则能用确定性代码评分的绝不用AI大模型来当评委。大约93%的任务采用基于代码的确定性评分只有约7%的任务主要是渲染场景、音乐制作、动画预览等需要人眼判断的视觉创意类任务才会用AI视觉模型来辅助评分但即便如此评分提示词也极其具体要求评委只回答是/否这样的明确问题而不是给出模糊的整体评价。研究团队还对评分方式进行了精细分类。精确匹配或哈希比对适用于网络安全比如找到正确的密钥和数学任务比如计算出精确答案。结构化表格/数值比对适用于金融、会计和临床数据任务比如从财务报告中提取具体的数字字段。几何/空间距离评分适用于3D建模任务比如比较两个网格模型的表面偏差。视觉外观评分适用于视觉创意类任务由AI视觉模型对比输出图像和参考图像。行为/世界状态评分适用于游戏和模拟任务在固定操作序列下比对系统状态。可执行制品评分适用于代码和数据管道任务运行输出程序并检查结果。五、谁来参加这场考试——AI考生的能力分类ALE的测试对象是研究团队称之为通用计算机使用智能体Generalist Computer-Use Agent简称GCUA的新一代AI系统。这类AI需要同时具备五层能力就像一名全能工程师既要有大脑思考规划、眼睛看懂屏幕、身体统筹协调、双手使用工具和双脚在真实环境中运行。研究团队将现有AI系统分为三类来理解这种差异。传统的命令行智能体CLI Agents比如SWE-agent和ForgeCode有大脑、身体、双手和双脚但没有眼睛——它们无法读取图形界面只能通过文字命令和代码操作系统。图形界面智能体GUI Agents比如一些基于视觉语言模型的系统有大脑和眼睛但双手不灵活主要只会鼠标和键盘操作、身体协调能力有限、双脚也受限——它们可以看屏幕但无法写复杂代码、管理大型文件或维持长时间的复杂工作流程。只有通用计算机使用智能体才同时具备全部五层能力能够在一个任务中随时切换命令行操作、图形界面交互、代码编写、文件管理和网络搜索。在测试中研究团队采用图形界面即工具GUI-as-Tool的方式来增强现有的命令行原生智能体通过一个标准的MCP服务器向智能体暴露14个桌面操作工具包括键盘输入、鼠标点击、拖拽、截图等使它们也能处理需要图形界面的任务。这样所有参与测评的AI系统都在统一的GCUA框架下接受测试。六、这场考试的成绩如何——令人清醒的实验结果结果出来了而且相当耐人寻味。ALE将150道公开题目划分为三个难度等级近期目标级Near-Term59道题当前顶尖AI能部分完成的任务、全谱级Full-Spectrum55道题覆盖全部55个行业的综合测试和最终考试级Last-Exam36道题绝大多数AI完全束手无策的最难任务。在最强的配置组合下——OpenAI的Codex代理搭配GPT-5.5模型——AI在近期目标级任务上的完整通过率达到了42.4%平均得分约70.7分在全谱级上完整通过率降到20%在最终考试级上仅有8.6%。综合三个等级的整体完整通过率为26.2%。这意味着即使是目前最强的AI系统在最难的一级任务上约91%的情况都会失败。相比之下同样是Codex搭配GPT-5.5的配置在另一个命令行专项基准测试Terminal-Bench上能达到82%的通过率。但在ALE的仅限命令行任务子集ALE-CLI中同样的配置整体通过率只有25.2%其中最难等级仅4.5%。这个对比生动说明ALE的难度远超现有针对性测试真实的职业工作流程与局限的基准测试任务之间存在巨大的能力鸿沟。在模型层面GPT-5.5和Claude Opus 4.7是目前表现最好的两个底层模型但不同模型之间的性能差距整体通过率相差约18个百分点远远大于不同代理框架之间的差距相差约5-6个百分点。这说明在相似的工程水平下底层模型的推理能力和领域知识是决定AI能否通过这场考试的最关键因素。换句话说再好的考试技巧也弥补不了基础知识的不足。从领域分布来看计算与数学科学和农业与环境领域得分相对较高约60%而视觉与媒体艺术和教育领域得分最低低于30%。这反映了现有AI模型在训练数据上的结构性不均衡与代码相关的领域获得了大量训练资源而专业创意和教育技术类工作流程则严重欠缺覆盖。七、AI为什么会失败——一张失败原因的地图研究团队对Claude Code搭配Claude Opus 4.7在公开题目上失败的案例进行了系统性的归因分析。分析结果描绘出一幅清晰的失败原因地图。约47%的失败属于方法选择错误AI要么选错了解题策略30%要么中途放弃、没有产出完整的交付物17%。约31%的失败属于理解层面的问题其中25%是因为缺乏专业领域知识——如果一个真正的领域专家来做这道题就不会犯这样的错误另外6%是因为AI凭空捏造了数据或结果。剩余22%属于执行层面的问题输出格式错误10%、代码逻辑错误8%和图形界面操作失败4%。一个特别值得关注的规律是当AI缺乏足够的专业知识时它往往会绕道而行——用临时编写的自定义脚本来替代应该使用的专业软件。这种行为不仅降低了任务完成质量还进一步造成了图形界面使用率远低于任务实际需求的现象。在全部公开题目中34%的任务指定使用图形界面软件作为主要工具但在大多数AI的实际操作记录中图形界面操作的比例都远低于这个数字。AI在用用命令行写脚本来替代用专业GUI软件操作而这恰恰是它失败的根源所在。八、如何防止考题泄露——公私分开的题库策略任何考试都面临一个根本性挑战题目一旦公开就可能被提前刷题或记忆。对于AI系统来说这个问题更加棘手因为AI的训练数据可能包含了网络上大量公开的测试案例导致AI见过题目而非真正具备能力。ALE对此采用了一个聪明的解决方案公私分开。在1490个任务实例中只有150个约10%向公众开放其余的1017个私有任务和323个待验证任务都保存在私有题库中。参与排行榜竞争的AI系统通过标准接口提交由研究团队在私有环境中运行评测再公布成绩——这类似于高考的保密制度题目在考前严格封存。归根结底ALE的意义不在于又多了一个AI排行榜而在于它试图回答一个更深刻的问题当AI系统真的能在这份考卷上取得高分那一刻意味着什么研究团队的答案是那将意味着AI已经具备了在真实职业环境中持续、独立地完成有经济价值的专业工作的能力——不是能回答关于这份工作的问题而是能真正做这份工作。那个时刻AI对经济的影响就不再只是基准测试上的数字而会开始真实地体现在各行各业的生产力数据中。目前这张最后的考卷还远未被任何AI答完。最难的一级任务对绝大多数AI系统来说几乎是一道无解之题。但这本身就是研究团队的设计意图设置一个需要当前系统持续努力才能逐步攻克的长期目标让每一次进步都真正对应着AI在现实世界中能力的提升而不仅仅是在某个精心设计的测试场景里的表现。这项研究的完整论文可以通过arXiv编号2606.05405查阅。QAQ1Agents Last ExamALE和其他AI测试基准有什么本质区别AALE最大的不同在于三点同时成立任务来自真实领域专家的真实工作项目不是研究人员自己设计的覆盖了55个不同行业现有基准最多覆盖16个而且评分完全自动化不需要昂贵的人工专家打分。过去的基准往往只能做到其中一两点ALE是第一个三点全部达到的。Q2目前最强的AI在ALE上通过率是多少A目前表现最好的组合是Codex代理搭配GPT-5.5模型在最简单的近期目标级任务上完整通过率约42%在最难的最终考试级任务上仅有8.6%综合三个难度等级的整体通过率约26%。绝大多数主流AI系统在最难级别的通过率接近于零。Q3ALE的任务评分是怎么做到不靠人工评判的AALE约93%的任务使用确定性代码来打分比如对比文件内容、检查数字是否在误差范围内、测量3D模型的几何偏差等。只有约7%需要判断视觉效果的创意类任务才用AI视觉模型辅助但即便如此也只问具体的是非题不允许模糊的整体评价。