清华大学用“海量免费截图“训练出媲美顶尖AI的电脑操作助手

📅 2026/7/3 2:03:11
清华大学用“海量免费截图“训练出媲美顶尖AI的电脑操作助手
这项由清华大学与腾讯混元联合推进的研究于2026年6月以预印本形式发布论文编号为arXiv:2606.29705感兴趣的读者可通过该编号查询完整原文。当你打开电脑想让一个AI助手帮你完成在某个网站上搜索商品、加入购物车、然后结账这样的任务时你其实是在和一类被称为GUI智能体的系统打交道。GUI是图形用户界面的缩写简单说就是你每天看到的那些有按钮、菜单、输入框的电脑或手机屏幕。GUI智能体就像一个能看懂屏幕、会动鼠标、会敲键盘的数字助手替你完成各种操作任务。然而训练这样一个助手有个巨大的麻烦它需要大量有人手把手教过的数据。就像训练一个新员工你不仅要给他看公司的操作手册还要给他看每一步应该点哪里、输入什么、怎么判断成功——这些细节都需要真人去标注耗时耗力且代价高昂。正因如此现有的GUI智能体往往只在特定类型的软件上表现不错换个新平台或者新场景就会手足无措还常常搞不清楚屏幕上某个细小按钮究竟在哪里。清华大学的研究团队换了一个思路既然互联网上每天都有海量的网页截图手机上也有大量的应用界面这些东西本身就暗藏着丰富的点击信号——哪个地方可以点哪个地方可以输入文字哪个地方有下拉菜单——何不直接利用这些天然存在的信号在不需要任何人工标注的前提下让AI从中学习他们把这套方法叫做GUICrafter意为界面工艺师并通过一系列精心设计的训练流程让这个系统在只用了顶尖竞争对手约千分之一数据量的情况下实现了相当甚至更优的性能表现。一、为什么训练GUI助手这么难要理解这项研究解决了什么问题得先明白训练一个GUI智能体为什么那么费劲。以往的方法依赖两种东西一是人工标注的任务数据比如找到页面上的搜索框输入运动鞋然后点击搜索按钮这样一步步的操作记录二是大量多样化的屏幕截图让AI见过足够多的界面风格。第一种数据需要真人坐下来一条一条地标记第二种数据虽然容易获取但截图本身并不会告诉AI应该点哪里。这导致了两个棘手的问题。第一个是视觉定位能力弱AI往往看不准屏幕上某个小按钮的确切位置把鼠标点到空白处或者旁边的区域任务就此失败。第二个是泛化能力差用购物网站数据训练出来的助手遇到银行网站或者医疗类应用就抓瞎因为它从没见过那种界面风格。归根结底这两个问题都指向同一个根源——高质量、多样化的训练数据太难收集了。业界做得最好的系统比如被称为UI-TARS的模型靠的是高达1840万条人工标注的操作轨迹数据。这种规模的数据采集对绝大多数研究团队来说几乎是不可复制的。GUICrafter的核心洞察正是在这里与其花大量人力去标注这个任务应该点哪里不如直接问网页和应用本身——你这里有哪些地方是可以交互的二、让网页自己说话无标注数据的采集之道研究团队做了一件听起来很简单、实际上颇为精妙的事情他们让程序自动去爬大量真实网页同时借助浏览器工具自动识别出每个网页上哪些元素是可以点击的、哪些是可以输入文字的、哪些是可以打开下拉菜单选择选项的。具体来说他们从各大热门网站的门户页面出发顺着页面上的每一个链接递归地往下爬就像一棵树从树干延伸到每一根树枝最终形成了一个覆盖众多真实网页场景的巨型数据集。这种爬取方式很聪明因为真实的GUI操作任务本来就是这样——从首页进入一步步点进子页面和这个树状结构天然吻合。为了保证数据质量他们还设置了一些自动过滤规则比如优先收录英文网站、剔除有弹窗遮挡的页面等。对于手机应用界面研究团队则借助了两个已有的开源数据集AndroidControl和AITZ。这两个数据集里有大量手机应用的截图更重要的是它们的无障碍树一种描述界面元素的结构化数据里记录了每个界面元素的类型——哪些可以点击、哪些可以勾选、哪些可以编辑输入。研究团队完全不使用这些数据集里的人工标注操作任务只用这些自动记录下来的交互元素信息。通过这个过程研究团队为网页平台积累了足足50万条弱监督样本为移动设备平台积累了13.6万条样本。这些数据完全不需要任何人工介入成本接近于零。三、元任务用一句通用指令代替千万种具体任务有了这些自动提取的交互信号之后研究团队面临一个新问题普通的训练数据会告诉AI搜索运动鞋、查询天气这样的具体任务但自动提取的数据只知道这里有一个可以点击的按钮——没有语义不知道这个按钮是干什么用的。为了解决这个断层研究团队发明了元任务这个概念。所谓元任务就是用一句极度概括性的指令来代表某一类操作的所有可能场景。以点击动作为例元任务的描述是点击页面上任何可以点击的区域比如按钮但不要点空白处。 对于输入文字元任务是在页面的输入框中输入任意文字。 对于下拉菜单元任务是从页面的下拉菜单中选择任意有效选项。这种设计的精妙之处在于它把无数种具体的任务描述都抽象成了少数几个通用指令。当AI学会了找到任何可以点击的地方并点击它它实际上同时学会了点击搜索按钮、点击购买按钮、点击导航菜单的能力只是还不知道在特定语境下该点哪一个。这种能力——分辨哪些区域是可交互的、哪些不是——正是视觉定位能力的核心所在。研究团队后来也做了对比实验把元任务和用GPT-4o自动生成的具体语义任务做了比较。结果发现在第一阶段训练中元任务的效果确实略逊于有语义的任务但经过第二阶段的少量高质量数据微调之后两者的最终性能几乎没有区别。这说明元任务已经足够让AI学习到界面理解的核心能力而细粒度的语义理解可以用极少量的高质量数据来补充校正。四、奖惩机制让AI在对错反馈中自我进化有了数据和元任务之后研究团队采用了一种叫做强化学习的训练方式。通俗地说强化学习就是让AI不断尝试做对了给奖励做错了不给奖励AI在反复的尝试与反馈中逐渐学会正确的行为——和训练小狗做动作的原理没什么本质区别。在GUICrafter的设定中奖励由几个部分组成。首先是格式奖励AI的输出必须按照规定的JSON格式来写包含操作类型、预测位置和可选的输入文字格式完全正确才能得到格式奖励哪怕有一点偏差也得零分。这个机制确保AI从一开始就养成规范输出的习惯。其次是操作类型奖励AI预测的操作类型点击、输入文字、选择菜单必须和真实情况匹配否则得零分。这一条保证AI不会乱猜操作方式。最有意思的是位置奖励的设计。最简单的方案是只要AI预测的坐标落在任何一个可交互区域内就给满分。但研究团队发现这样太宽松了——因为一个网页上可能有几十个按钮随便点一个都算对AI就学不到精确定位的能力。于是他们采用了一种叫做高斯奖励的方案。可以这样理解每个可交互元素的中心是靶心离靶心越近得分越高越远得分越低而且奖励的衰减方式和元素的大小成正比——一个大按钮的奖励衰减得慢一个小图标的奖励衰减得快。这种设计迫使AI不只是随便点个按钮而是尽量往可交互元素的中心点击极大地提升了精确定位能力。实验证明这种高斯奖励确实比简单的二元奖励效果好尤其在高难度任务上的优势更明显。对于需要输入文字的任务还有一个文字相似度奖励AI输出的文字必须和参考答案有足够高的词语重叠度才能得到这部分奖励。五、两阶段课程从宽泛练习到精准校正GUICrafter的整个训练过程被设计成两个递进阶段就像学一门乐器——第一阶段是大量基础练习打好手感和乐感第二阶段是针对具体曲目的精细排练。第一阶段叫做弱监督GUI预训练。在这个阶段AI面对海量的真实网页和手机应用截图接收元任务指令尝试找到并点击对应的可交互元素然后根据高斯奖励信号更新自己的参数。整个过程不需要任何人工标注完全依靠自动提取的交互信号。主实验中使用了网页端的2万条样本和移动端的9600条样本但研究团队也测试了使用50万条数据的完整版本证明数据量越大效果越好且目前还没有到达性能天花板。第二阶段叫做高质量强化微调。在这个阶段研究团队引入了少量经过严格筛选和清洗的人工标注数据。对于网页和桌面平台他们从Mind2Web数据集中精心筛选了4966条干净样本并从GUI-R1-3K数据集中补充了1744条网页样本和85条桌面样本最终获得6795条高质量数据。对于移动平台他们从AMEX数据集中选取了3200条样本该数据集以任务描述清晰、操作轨迹标注准确著称。这批高质量数据的作用是校正第一阶段让AI学会了分辨哪些地方可以交互、如何精确定位第二阶段通过有语义的真实任务让AI学会了在什么情境下该选哪个可交互元素。两个阶段缺一不可就像厨师先练好刀工第一阶段再学菜谱第二阶段。六、数据质量与噪声现实世界数据没那么干净任何从真实环境自动采集的数据都不可能完美无缺研究团队对此也做了认真的分析。他们随机抽取了1000条第一阶段的数据进行人工检查发现其中84.9%的样本是完全正确的没有遗漏、重叠或混乱的交互元素。剩下约15%的样本存在各种问题比如某些元素没被正确识别、边界框有偏差等。更重要的是他们专门做了一个实验来测试训练流程对噪声的鲁棒性故意把噪声比例从0%调高到15%再到30%看看模型性能如何变化。结果发现在第一阶段结束时噪声越多性能确实越差30%噪声的模型比0%噪声的模型差了约3-5个百分点。但是经过第二阶段的高质量数据微调后三种噪声水平的最终性能差距大幅收窄几乎可以忽略不计。这说明即使第一阶段的训练数据不够干净第二阶段的精准校正能有效弥补这个缺陷整个两阶段框架有相当强的抗噪能力。七、成绩单在六大测试场景中的表现研究团队在六个不同的基准测试上全面评估了GUICrafter覆盖了网页、桌面应用和移动应用三大平台。在Mind2Web基准测试上这个测试模拟真实的网页操作任务分为见过的网站但新任务、没见过的网站和没见过的领域三个难度子集全面考验模型的泛化能力。GUICrafter-3B即3亿参数规模的版本在三个子集上的平均元素定位准确率达到60.2%超过了UI-TARS-2B的59.5%。要知道UI-TARS用了1840万条标注数据而GUICrafter只用了约2万条弱监督数据加6795条高质量数据总量不到UI-TARS的千分之一。更值得关注的是GUICrafter在没见过的网站和没见过的领域这两个子集上的优势比在见过的网站上更明显说明弱监督预训练确实给模型带来了更强的举一反三能力。仅完成第一阶段训练不用任何人工标注数据的GUICrafter就已经比基础模型Qwen2.5-VL-3B提升了超过12个百分点这个成绩相当于给一个从未经过专业培训的新人做了大量实习练习后的自然进步。在ScreenSpot-Pro基准测试上这个测试专门考察桌面和移动应用中精细界面元素的定位能力题目难度更高很多目标元素又小又不明显。GUICrafter-3B达到了33.5%的平均准确率比排在第二位的GUI-R1-3B高出约4-5个百分点也超过了参数量更大的UI-TARS-2B的27.7%。仅第一阶段训练就带来了超过10个百分点的提升。在AndroidControl基准测试上这个测试分为低难度和高难度两个版本后者要求更复杂的多步推理。GUICrafter在两个版本上都超过了其他同等规模的模型。特别值得一提的是仅完成第一阶段的GUICrafter在AndroidControl-Low上达到了62.35%的步骤成功率和使用了人工标注数据的GUI-R1-3B不相上下——这意味着光靠免费的弱监督数据就能达到有标注竞争对手的水平。在AITW零样本测试上研究团队采用了完全不针对该数据集微调的零样本设置考察模型的跨数据集泛化能力。GUICrafter达到了50.89%的整体步骤成功率接近于依赖GPT-4V这类更强大闭源模型的方案也超过了同等规模的GUI-R1-3B的43.60%。在OmniACT基准测试上这个测试覆盖网页和桌面两类场景GUICrafter在网页域的定位准确率为77.21%在桌面域为82.88%均超过了GUI-R1-3B。仅第一阶段就带来了网页端18.96%、桌面端30.84%的提升桌面端的惊人跳跃体现了弱监督预训练对从未见过的界面风格的强大适应能力。在AndroidWorld在线测试上这个测试在真实Android环境中运行完整的多步任务是最贴近实际使用场景的测试之一。GUICrafter-3B的任务完成率达到25.43%而GUI-R1-3B只有14.22%提升幅度超过11个百分点。八、细节实验每个设计选择背后的依据研究团队做了若干细致的对比实验验证了几个关键设计选择的必要性。关于元任务是否足够好他们对比了四种任务设定只有点击元任务非常简化、完整的三类元任务论文实际方案、GPT-4o自动生成的语义任务以及真实的人工标注任务。测试使用了Mind2Web中最难的一个子集——来自未见领域且操作步骤超过10步的任务共148个测试样例平均每个任务需要13.57步操作。结果表明完成两阶段训练后元任务、GPT-4o生成任务和人工标注任务的性能几乎没有差异步骤成功率分别为51.3%、51.5%和52.1%只有仅点击的极度简化版本性能明显较差因为模型会退化成总是预测点击操作。这个结果从侧面证明了元任务的设计是足够充分的。关于数据量的影响他们分别测试了使用10、100、1000、10000、50000条第一阶段数据的效果每个设置独立重复三次取平均。结果呈现出非常清晰的趋势从10条数据开始就有明显的性能提升随着数据量增加性能持续改善在50000条时仍未出现饱和。用整个500K数据集时大约在35万条数据处性能趋于稳定说明弱监督数据的有效上限大约在这个量级。哪怕只用10条弱监督样本也能在Mind2Web上提升1.7%、在ScreenSpot-Pro上提升2.6%体现出这种数据的极高效率。研究团队还展示了一个直观的失败与成功案例在第一阶段训练后模型面对一个演唱会票务网站时它知道要点击某个按钮但错误地点到了按日期筛选按钮而不是更改城市按钮——两者都是可交互元素但语义上前者是错的。经过第二阶段的有语义任务微调后同样的截图模型能正确识别出需要先点击更改城市来把地点改为纽约。这个案例生动说明了两个阶段的分工第一阶段教会哪里能点第二阶段教会在这个任务里该点哪个。说到底GUICrafter这项研究干的事情有点像一个聪明的自学者别人需要请一百个老师手把手教一百种任务他却先自己把市面上所有的操作手册翻一遍摸清楚每种按钮、每种输入框长什么样、在哪里然后只请几个老师帮他过一遍真实场景就能上手。结果这个自学者在绝大多数考试科目上和那些花了大量家教费的同学打成平手甚至有时还略胜一筹。这项研究最实在的意义在于它打破了必须有海量标注数据才能训练好GUI智能体的假设。互联网上的网页截图是取之不尽的资源手机应用的无障碍树数据也唾手可得这些东西里面藏着的交互信号完全可以成为训练的燃料而不需要真人去逐条标记。当然研究团队也坦诚地指出第二阶段还是需要一小批高质量的人工标注数据来做最终校正完全消除人工介入还有待探索。他们在展望中提到未来计划借助大模型来自动合成有语义的任务描述从而建立一个不断自我迭代的数据飞轮让GUI智能体持续进化而无需人工干预。这个方向如果能走通对于每个希望用AI助手帮自己处理日常电脑操作的普通人来说都意味着更低成本、更强能力、更广泛应用场景的智能操作助手变得越来越近。对这项研究感兴趣的读者可以通过arXiv编号2606.29705找到完整论文代码、数据集和模型权重也已同步开源。QAQ1GUICrafter是如何在不需要人工标注的情况下训练GUI智能体的AGUICrafter通过自动爬取真实网页利用浏览器工具识别出页面上哪些元素可以点击、输入或选择再将这些交互信号转化为训练数据。AI在找到任何可点击的地方并点击这类通用指令下反复练习通过奖惩反馈自我进化整个过程无需任何人工标记。Q2GUICrafter的高斯奖励和普通二元奖励有什么区别A普通二元奖励只要点到任意可交互区域就给满分导致AI随便点个按钮就能得奖精度无从提升。高斯奖励则以可交互元素的中心为靶心离中心越近得分越高越偏越低迫使AI学会精确定位实验证明这在高难度任务上效果明显更好。Q3GUICrafter和UI-TARS相比数据量差距有多大性能差距如何AUI-TARS使用了约1840万条人工标注轨迹数据GUICrafter仅使用约2万条弱监督数据加不到7000条高质量标注数据总量不及UI-TARS的千分之一。但在多个基准测试上GUICrafter-3B的性能与UI-TARS-2B相当甚至在跨域泛化场景下略优体现出极高的数据利用效率。