NatureBench评估AI Agent:Claude Opus 4.7部分任务超SOTA,但稳定超越能力仍有限

📅 2026/6/27 5:00:02
NatureBench评估AI Agent:Claude Opus 4.7部分任务超SOTA,但稳定超越能力仍有限
NatureBench评估AI Agent目前的AI Agent能在顶级学术期刊Nature论文的核心实验中超过人类研究者吗过去的评测体系要么侧重论文复现能力衡量是否能够还原已有方法要么关注Kaggle竞赛或模型后训练任务的工程优化能力但仍缺乏对一个更关键问题的系统评估AI Agent是否能够在真实科学论文设定下独立改进方法并超越原论文SOTA。跨学科基准NatureBench针对这一问题清华大学教授、上海人工智能实验室主任周伯文团队及其合作者提出了跨学科基准NatureBench用于评估AI coding Agent在Nature系列论文核心实验中的复现与改进能力。论文链接https://arxiv.org/pdf/2606.24530。结果显示即使是实验中表现最强的Claude Opus 4.7 Claude Code也只在17.8%的任务上实现Surpass - SOTA、在47.8%的任务上达到或超过论文SOTA。这些结果表明当前AI Agent已经能在部分真实科学任务中接近甚至超过原论文结果但稳定超越能力仍然有限。NatureBench的设计NatureBench包含90个真实科学任务、覆盖6大领域的基准其核心是把真实科学论文做成能运行、能评分、也能复现的容器化任务。为此研究团队设计了自动化流程NatureGym一套将Nature系列已发表论文转化为可直接运行的Agent任务的流水线。NatureGym将格式、工具链和数据模态各异的论文统一标准化为同一可复现的任务格式同时设置了一个信息防火墙information firewall对原始方法保密要求Agent自主发现解决方案而非直接复现。评估器、真实标签与SOTA目标均驻留于宿主侧评估服务中Agent无法直接访问。具体流程具体流程分为以下三步第一步是筛选论文。他们从10本Nature系列期刊中收集2022到2025年约5500篇论文去掉新闻、社论、综述等非研究文章再筛出能转成机器学习任务、评估可自动化、数据公开完整且不超过50GB的论文。第二步是获取代码和数据并划定任务起点保证Agent只能从核心算法的输入端开始不能看到中间结果或最终结果。第三步是把论文封装成标准任务包并通过36项自动化检查最后约160个任务包进入后续校准。质量校准任务包构建完成后他们进行了质量校准分两轮检查任务。Base模式用于排查任务定义、评测和环境是否有问题Reproduce模式则让Agent额外看到源论文用来验证任务包是否支持复现原方法。最终NatureBench定稿为90个任务、333个评估实例覆盖6本Nature系列期刊的多个研究方向共涉及81种主要指标。实验结果为统一比较不同任务的结果他们定义了归一化相对差距g。g ≥ 0表示达到或超过论文SOTAg 0.1则算作明确超越。每个任务给Agent留出4小时完成并允许通过评估多次提交查看反馈。任务结束后他们使用Claude Sonnet 4.6做事后检查排除伪造输出、反查答案以及利用反馈机制取巧等行为。研究团队共评测了10款Agent配置覆盖Claude Code、Codex CLI和Gemini CLI三种harness。所有Agent均禁用Web搜索以避免直接检索源论文或数据集内容。整体结果如下在10款配置中Claude Opus 4.7 Claude Code按整体Surpass - SOTA排名第一Surpass - SOTA为17.8%Match - SOTA为47.8%。在提交质量上Claude Opus的两种配置最稳定Completion Rate和Score Rate均为100%没有无效提交GPT - 5.5的Score Rate为98.9%Completion Rate为84.4%还有13次提交被事后judge判定为无效捷径。从任务分布看关系推理的Match - SOTA率最高达到60.0%蛋白质生物学和细胞组学分别为37.5%和35.5%物理建模、分子设计和生物医学建模则分别为26.9%、18.2%和17.9%。此外相比单学科任务跨学科任务的Match - SOTA率和中位g都更低。75个单学科任务的Match - SOTA率为33.1%15个跨学科任务为28.0%中位g分别为 - 0.13和 - 0.21。路径标注与具体案例研究团队还对900次运行进行了路径标注。在达到Match - SOTA的运行中监督代理预测、搜索/调参、工程流水线和预训练/扩展共计占82.7%。在未达到Match - SOTA或没有有效分数的运行中失败更多出现在方法层和执行层分别占61.1%和28.7%其中错误方法选择占45.1%预算或时间不足占24.4%。研究团队还给出了几个具体案例。例如在癌症基因识别任务中Claude Opus 4.7采用ChebNet/GNN集成方法将g值从 - 0.017提升至 0.177达到Match - SOTA水平在基因组序列预测任务中GPT - 5.5共进行了258次提交最佳g值为 - 0.141仍低于SOTA在有机反应产物预测任务中DeepSeek - V4 - Pro使用Seq2Seq反应建模方法Top - 1准确率为58.5%距离原任务90.8%的SOTA水平仍有明显差距。不足与未来方向尽管NatureBench让科学任务评测变得更可执行、更标准化但研究团队也指出这套基准也存在以下不足首先它只覆盖能够被抽象为机器学习任务且可以自动评分的核心定量问题。湿实验验证、纯理论推导、硬件或物理交互类研究以及依赖人工判断或外部服务评分的贡献NatureBench都未涉及。其次研究团队指出部分任务并非完整复现整篇论文而是抽取其中一个核心实验进行评测。这些任务仍对应论文中的关键定量问题但只覆盖部分实验实例和指标。因此NatureBench衡量的是Agent在具体任务上的表现而不是对原论文全部贡献的完整评价。此外统一的4小时墙钟预算和单卡设置也可能影响部分任务的完成度。研究团队观察到失败案例主要源于方法选择不当和执行深度不足其中一部分与计算资源或时间预算受限有关。部分失败并不完全反映Agent对任务理解不足也可能源于既定资源约束下的方法探索和执行不足。NatureBench基于公开论文和公开数据构建尽管研究团队通过禁用Web搜索、设置隐藏评测服务并使用post - hoc judge过滤投机式提交但仍然存在数据泄露方面的隐患。最后g值本身也有解释边界。当论文SOTA已经接近指标上限时普通性能差距可能被放大为较大的负值而单一主指标也可能只覆盖原论文多目标评估的一部分。因此未来需更强调Surpass - SOTA、Match - SOTA和中位数表现而不是只看平均分。当然研究团队也指出了几个可能的未来研究方向。例如扩大任务覆盖范围从单个核心实验进一步走向更完整的论文复现设计更细分的资源预算区分短时、长时、单卡和多卡设置改进评测判定方式更清楚地区分理解错误、方法选择错误、执行不足和资源受限带来的失败引入更丰富的实验实例和指标让评测结果更接近真实科研复现中的复杂度。