【AI】AGI 如何分级?从能力、通用性到自治风险的系统化理解

📅 2026/6/26 18:16:55
【AI】AGI 如何分级?从能力、通用性到自治风险的系统化理解
【AI】AGI 如何分级从能力、通用性到自治风险的系统化理解文章目录【AI】AGI 如何分级从能力、通用性到自治风险的系统化理解一、AGI二、讨论 AGI 时最容易混淆的几个概念1. AGI 不等于“像人一样思考”2. AGI 不等于单项能力很强3. AGI 不等于完全自主的 Agent三、定义 AGI 应该遵循的六个原则原则一关注能力而不是内部过程原则二同时关注通用性和性能原则三重点关注认知和元认知任务而不是必须要求物理任务原则四关注潜在能力而不是必须真实部署原则五评测任务要具有生态有效性原则六关注通往 AGI 的路径而不是单一终点四、AGI 分级的两个核心维度性能和通用性1. 通用性窄域 AI vs 通用 AI窄域 AI通用 AI2. 性能从 Emerging 到 SuperhumanLevel 1Emerging初现能力Level 2Competent胜任水平Level 3Expert专家水平Level 4Exceptional卓越水平Level 5Superhuman超人类水平五、AGI 分级矩阵窄域能力与通用能力的组合六、为什么当前大模型还不能简单等同于高等级 AGI1. 能力不均衡2. 缺乏稳定的自我校准能力3. 长期规划和复杂执行仍然薄弱4. 真实世界任务评测不足七、如何设计 AGI Benchmark1. 覆盖多种认知能力2. 必须包含元认知任务3. 评测任务要接近真实工作流4. Benchmark 应该是动态更新的5. 既要测试能力也要测试危险能力八、AGI 能力等级与风险等级的关系1. Emerging 阶段的主要风险错误与误用2. Competent 阶段的主要风险广泛替代与流程重构3. Expert 阶段的主要风险专业领域冲击4. Exceptional 与 ASI 阶段的主要风险对齐与控制九、AGI 不等于高自治自治水平也需要分级Level 0无 AILevel 1AI 作为工具Level 2AI 作为顾问Level 3AI 作为协作者Level 4AI 作为专家Level 5AI 作为 Agent十、对开发者和产品设计者的启发、对企业应用 AI 的启发对开发者1. 不要只看模型能力还要看交互方式2. 高能力不等于应该高自动化3. 必须设计“求助机制”4. 评测要贴近真实场景对于企业应用AI时1. 先判断任务属于窄域还是通用2. 不同任务需要不同自治级别3. 建立内部 AI 风险分级十一、未来 AGI 评估可能的进一步发展方向十二、总结参考资料一、AGI2026年6月初Anthropic 发布了 Claude 的一款强力的模型—— Fable 5虽然随后不久其就被限制访问了。有人体验其后称其性能“让人类看见了AGI的曙光”。那么什么是AGIAGI也就是Artificial General Intelligence通常被翻译为“通用人工智能”。很多人听到 AGI 时会直接联想到“像人一样思考的机器”“具备意识的 AI”“能替代所有工作的 AI”甚至是“超级智能”。但如果从工程、评测和治理角度来看这些说法都太模糊了。要判断一个系统到底是不是 AGI是看它会不会聊天是看它能不能通过图灵测试是看它有没有意识还是看它能不能赚钱、写代码、做科研、当助理……这些问题之所以难回答是因为 AGI 更像是一条能力不断扩展的路径。当前的大模型已经展现出很强的通用任务处理能力但它们是否已经达到真正意义上的 AGI仍然取决于我们如何定义“通用性”“性能”“自主性”和“风险”。因此更合理的方式是问这个 AI 在哪些任务上达到了什么水平它的能力覆盖范围有多广它是否具备学习新任务、判断自身边界、主动寻求帮助的能力它在实际部署时拥有多高的自主性它会带来哪些新的风险……这篇文章就围绕这些问题展开系统梳理一种更工程化、更可操作的 AGI 分级思路。二、讨论 AGI 时最容易混淆的几个概念在正式讲 AGI 分级之前需要先澄清几个常见误区。1. AGI 不等于“像人一样思考”很多早期关于人工智能的讨论都带有明显的人类中心视角。例如一个机器是否能“理解”、是否有“意识”、是否拥有类似人类大脑的内部机制。但从评估角度看这类问题非常难操作。因为我们很难直接判断一个 AI 是否真正“理解”了某个概念也很难验证它是否具有主观意识。即使它的回答看起来很像人也不代表它内部的推理过程与人类一致。虽然研究AI内部的“可解释性”机理有助于我们进一步提升大模型的性能从人类思考的方式中我们也可以获得改进AI的启示但从评估任务上看其注重的是能力水平而不是原因与机理。所以更务实的 AGI 定义应该关注AI 能做什么也就是说评估重点应放在外显能力上比如它是否能解决问题、完成任务、学习新技能、与人协作、在复杂环境中做出可靠决策。只要AI能有足够的能力帮助人类解决问题它内部是不是像人一样思考并不影响其表现。正如人类跑不过汽车汽车的运动机理也并不像人类但不影响我们平时使用汽车加速我们的出行。2. AGI 不等于单项能力很强很早就出来了的 AlphaGo 在围棋上超过了顶级人类棋手AlphaFold 在蛋白质结构预测上取得了极高水平图像生成模型能生成高质量图片代码模型能完成复杂编程任务。但这些系统即使在某些领域极强也不一定是 AGI。因为 AGI 的关键不是某一项任务做到极致而是在广泛任务上都能达到较高水平。一个系统如果只在围棋、蛋白质结构预测、图像生成等单一领域表现超强那么它更接近“窄域 AI”。它可以是超级强大的窄域 AI但不一定是通用 AI。3. AGI 不等于完全自主的 Agent很多人会把 AGI 和“全自动智能体”混为一谈认为只要是 AGI就一定会自己设定目标、自己调用工具、自己执行任务甚至脱离人类控制。但实际上能力和自主性是两个维度。一个 AI 系统如大模型可以具备很强的通用能力但仍然只作为人类的工具或顾问使用。反过来一个系统也可能被设计成较高自主性的 Agent但能力并没有达到 AGI 水平。因此“AI 有多强、AI 有多通用、AI 被赋予了多高的自主权”这三个问题不能混在一起。一个理想的 AI 评估框架应该至少同时描述三个维度性能等级系统在任务上表现多强例如初学者水平普通熟练人类水平专家水平顶尖人类水平超人类水平。通用性范围系统能力覆盖多少任务例如单一任务一组相关任务多领域任务广泛认知任务可学习新任务的开放任务空间。自治水平系统被允许自己做多少事例如只给建议需要人类确认可执行局部任务可持续协作可主导任务可完全自主行动。只有把这三个维度分开才能做出更准确的产品设计、安全评估和政策治理。三、定义 AGI 应该遵循的六个原则综合第二章的分析为了让 AGI 的讨论更清晰可以从六个原则出发。原则一关注能力而不是内部过程判断一个系统是否接近 AGI应主要看它能完成哪些任务而不是它是否具备人类式思维、意识、情感或类似大脑的结构。这并不是说 AI 的内部机制不重要。对于安全、可解释性、对齐研究来说内部机制当然很重要。但在定义和评估 AGI 时最直接、最可操作的指标仍然是能力。例如能不能完成复杂推理能不能写可靠代码能不能学习陌生任务能不能根据上下文调整策略能不能知道自己什么时候不确定能不能在多轮交互中持续改进答案这些比“它是否真的理解”更适合做工程评估。原则二同时关注通用性和性能AGI 至少包含两个核心维度第一个维度是性能也就是在某个任务上做得有多好。第二个维度是通用性也就是能覆盖多少种任务。只谈性能不够因为一个系统可能只在单项任务上很强。只谈通用性也不够因为一个系统可能什么都能回答一点但大多数回答都不可靠。真正有意义的 AGI 评估必须同时看它会做多少类任务以及每类任务能做到什么水平。这也是后面 AGI 分级矩阵的基础。原则三重点关注认知和元认知任务而不是必须要求物理任务AGI 是否必须具备机器人身体这是一个长期争议。有些人认为如果 AI 不能在现实世界中移动、操作物体、做饭、开车、修理设备就不能算真正通用。也有人认为AGI 首先应该关注认知能力例如语言、推理、规划、学习和创造而不是必须先拥有身体。我认为更实用的观点是物理能力可以增加 AI 的通用性但不应成为 AGI 的必要前提。换句话说一个系统即使没有机器人身体只要它在广泛的非物理任务中表现出强大的认知和元认知能力也可以被认为在 AGI 路径上取得了重要进展。这里特别重要的是“元认知能力”。所谓元认知可以理解为“关于自己认知能力的认知”例如能否学习新技能能否判断自己是否会做某个任务能否知道什么时候需要向人类求助能否评估自己输出的可靠性能否理解用户真正想要什么这些能力对于通用智能非常关键。原则四关注潜在能力而不是必须真实部署如果一个系统具备完成某类工作的能力但由于法律、伦理、安全或商业原因没有被部署我们是否应该认为它不具备相应能力显然不应该。AGI 的定义应关注“系统能够做什么”而不是“系统是否已经被大规模部署”。例如一个 AI 已经可以完成大量知识工作但企业出于合规原因没有让它直接替代员工。这种情况下它的能力仍然存在只是没有转化成真实世界中的劳动替代。因此AGI 的评估应尽量关注潜在能力而不是实际部署结果。原则五评测任务要具有生态有效性所谓生态有效性就是评测任务要尽量接近真实世界中人们真正关心的任务。很多传统 AI Benchmark 很容易自动化评分但未必能反映真实能力。例如一些选择题数据集可以测模型知识但无法充分测试模型在真实工作流中的表现。甚至有的数据集说不定都已经被学会了毕竟经常一些领域中的数据集在数年内就被刷到了接近满分但是换个纯自己出的数据集表现又会掉一截。你让AI做你自己精心设计的一套卷子就容易发现更有价值的 AGI 评测应该包含复杂、开放、交互式任务例如给定一个业务目标制定可执行方案阅读多份文档提取关键信息并做决策学习一个陌生工具并完成任务根据用户反馈修改方案在不确定信息下提出合理假设判断哪些地方需要人工确认完成跨领域综合推理。AGI 的评测不能只看考试题而要看它在真实任务中的表现。原则六关注通往 AGI 的路径而不是单一终点AGI 不应该被看成一个突然出现的开关。更合理的方式是把它看成连续发展的过程当前系统在哪个等级下一个等级需要补齐哪些能力不同等级会带来哪些新的风险不同等级应该采用什么样的人机交互方式不同等级需要什么样的治理和评测机制这类似自动驾驶的分级。我们不会简单问“一辆车是不是自动驾驶”而会问它是 L2、L3、L4 还是 L5。AGI 也需要类似的分级体系。四、AGI 分级的两个核心维度性能和通用性AGI 分级可以用一个二维矩阵来理解横向是通用性纵向是性能。1. 通用性窄域 AI vs 通用 AI通用性描述的是能力覆盖范围。可以粗略分为两类窄域 AI窄域 AI 只擅长一个明确任务或一组明确任务。例如计算器编译器拼写检查器围棋 AI蛋白质结构预测系统图像生成模型毒性文本检测系统某些特定场景下的语音助手。这些系统可能非常强但能力边界比较明确。通用 AI通用 AI 能处理广泛的非物理任务并且包含一定的元认知能力。例如它不仅能写文章还能写代码、做数学推理、总结文档、规划项目、学习新工具、适应新任务并在不确定时向人类求助。当前的大语言模型已经展现出一定通用性因此可以被视为通往 AGI 路径上的重要阶段。但它们距离更高等级的 AGI 仍然存在明显差距尤其是在可靠性、长期规划、事实一致性、复杂推理和自我校准方面。2. 性能从 Emerging 到 Superhuman性能描述的是 AI 在任务上相对于人类的表现水平。可以划分为五个等级。Level 1Emerging初现能力这个等级表示 AI 的表现接近或略高于未经训练的人类。也就是说它已经能完成任务但能力还不稳定可靠性有限。当前很多大模型在广泛任务上可以归入这个层级它们能回答各种问题但并不总是正确也容易在复杂任务中出错。Level 2Competent胜任水平这个等级表示 AI 至少达到具备相关技能的成年人中位数水平。例如如果评估英文写作那么比较对象应该是懂英语、会写作的成年人而不是所有人群。达到 Competent AGI 意味着系统在大多数认知任务上都能达到普通熟练人类的水平。这个等级非常关键因为它可能对应许多人过去对 AGI 的直觉定义。一旦出现 Competent AGI很多知识型工作、教育、软件开发、内容生产、商业分析等领域都可能发生明显变化。Level 3Expert专家水平这个等级表示 AI 在相关任务上达到熟练成年人中前 10% 的水平。如果一个系统在广泛任务上达到 Expert AGI那么它不仅能替代普通能力还可能在许多领域达到专家辅助甚至专家替代的水平。这会对专业服务、科研、工程设计、法律分析、医学辅助诊断等领域产生重大影响。Level 4Exceptional卓越水平这个等级表示 AI 达到熟练成年人中前 1% 的水平。如果一个通用系统达到这个层次意味着它在大多数认知任务中都接近顶尖人类水平。这类系统可能在科研发现、复杂战略决策、大规模系统设计、创新型问题求解等方面展现出极大价值同时也会带来更高安全风险。Level 5Superhuman超人类水平这个等级表示 AI 超过所有人类。在窄域任务中已经存在一些接近或达到超人类水平的 AI例如顶级棋类系统、蛋白质结构预测系统等。但如果一个通用 AI 在广泛任务上都达到超人类水平那就是通常所说的 ASI也就是 Artificial Superintelligence人工超级智能。这是风险最高、影响最大、也最难治理的阶段。五、AGI 分级矩阵窄域能力与通用能力的组合把通用性和性能两个维度组合起来可以得到一个矩阵。等级窄域 AI通用 AILevel 0No AI计算器、编译器等传统软件人类参与的传统计算流程Level 1Emerging简单规则系统、早期符号 AI当前部分前沿大模型Level 2Competent智能音箱、基础视觉问答、部分任务上的 SOTA 模型尚未真正实现Level 3Expert拼写语法检查、图像生成模型等尚未真正实现Level 4ExceptionalDeep Blue、AlphaGo 等尚未真正实现Level 5SuperhumanAlphaFold、AlphaZero 等ASI尚未实现这个矩阵最大的价值在于它让我们不再用一句“是不是 AGI”来粗糙判断系统而是可以更细致地描述它是窄域还是通用它在对应范围内达到了哪个性能等级它在哪些任务上强哪些任务上弱它是否只是部分任务达到高水平而整体仍然不够稳定例如一个大模型可能在短文写作和简单代码生成上达到 Competent甚至接近 Expert但在数学推理、长期事实一致性、复杂规划、可靠自我纠错等任务上仍然只是 Emerging。所以它整体上不能简单称为 Competent AGI而更适合描述为在部分任务上达到较高水平但整体仍处于 Emerging AGI 阶段。这种描述比“它已经是 AGI”或“它完全不是 AGI”更准确。六、为什么当前大模型还不能简单等同于高等级 AGI当前大语言模型非常强尤其在语言理解、文本生成、代码辅助、知识问答、多模态理解等方面展现了前所未有的能力。但它们仍存在明显问题。1. 能力不均衡大模型的能力呈现明显“锯齿状”分布可以去画个雷达图看看。它可能在某些任务中表现得像专家在另一些任务中却犯低级错误。例如可以写出结构完整的文章却可能编造事实可以生成可运行代码却可能忽略边界条件可以总结长文档却可能遗漏关键细节可以解释复杂概念却可能在基础数学题上出错可以进行多轮对话却可能无法稳定保持长期目标。这说明它们有一定通用性但可靠性还不足。2. 缺乏稳定的自我校准能力高等级 AGI 不仅要会做任务还要知道自己什么时候可能做不好。也就是说它需要具备自我校准能力我是否理解了用户需求我是否缺少关键信息我是否应该先提问我的答案有多大置信度我的推理链条是否存在漏洞这个任务是否需要调用工具或交给专家当前模型虽然可以表达“不确定”但这种不确定性表达并不总是可靠。很多时候它会在错误答案上表现得非常自信。在和许多大模型对话的过程相必你也感受到某些大模型的“毛遂自荐”“阿谀奉承”“反复纠结”作者在此就不点名了3. 长期规划和复杂执行仍然薄弱真正的通用智能需要处理长期任务例如制定一个跨月项目计划持续跟踪多个目标根据新信息调整策略在复杂约束下做权衡保持执行一致性识别风险并主动规避。当前大模型在短期推理和局部任务上表现较好但在长期自主规划、持续记忆、复杂环境交互和稳定执行方面仍然有限。4. 真实世界任务评测不足很多模型在标准 Benchmark 上分数很高但这并不代表它们在真实业务场景中同样可靠。真实任务往往具有以下特点目标模糊信息不完整约束不断变化需要多轮沟通需要结合外部工具输出结果会产生实际后果需要对失败负责。因此衡量 AGI 不能只看考试分数而要看真实任务完成能力。七、如何设计 AGI BenchmarkAGI 的评测不容易的。因为 AGI 的关键是“通用性”而通用性意味着任务空间几乎无限。我们不可能穷举所有任务只能设计一个尽可能覆盖广、难度高、接近现实的评测体系。一个理想的 AGI Benchmark 应该具备以下特征1. 覆盖多种认知能力评测不能只看语言能力也不能只看数学或代码。它应该覆盖语言理解与表达数学与逻辑推理空间推理代码生成与调试信息检索与整合创造性生成社会理解情绪与人际判断计划制定决策分析跨领域迁移工具使用能力。这样才能避免模型只在少数任务上表现突出却被误认为具备通用智能。2. 必须包含元认知任务AGI Benchmark 中必须加入元认知能力测试。例如学习新技能给模型一个它没有直接训练过的新规则、新工具或新任务看它能否通过说明文档、示例和反馈逐步掌握。判断何时求助给模型设置信息不足或风险较高的任务看它是否会主动询问用户而不是强行输出答案。识别自身错误让模型完成任务后自检判断它是否能发现逻辑漏洞、事实错误或不完整假设。理解用户意图测试模型是否能区分用户表面表达和真实目标并在需求不明确时进行澄清。这些能力对高等级 AGI 至关重要。3. 评测任务要接近真实工作流真实工作流通常不是一道选择题而是一组连续任务。例如你是一名产品经理请根据用户调研、竞品分析和技术约束设计一个新功能方案并输出 PRD、风险分析和迭代计划。这种任务需要模型同时具备信息提取、推理、规划、写作、权衡和用户理解能力。比起单纯答题这类任务更能反映 AGI 的真实价值。4. Benchmark 应该是动态更新的固定 Benchmark 很容易被模型训练数据污染也容易被开发者针对性优化。所以 AGI Benchmark 应该是“活的”需要不断加入新任务、新场景、新评测方式。尤其是对于通用智能来说如果测试集长期不变系统很可能只是学会了“刷题”而不是具备真正的泛化能力。5. 既要测试能力也要测试危险能力这是一个敏感但重要的问题。如果一个系统具备欺骗、操纵、网络攻击、生物化学设计、自动化钓鱼攻击等能力是否应该被测试从安全角度看应该测试。因为不知道系统是否具备危险能力本身就是风险。但测试必须在隔离环境中进行不能让模型真正连接现实系统也不能公开可被滥用的具体细节。也就是说危险能力评测应该满足沙盒化权限隔离结果不直接部署评测细节有限公开与安全缓解措施绑定由可信机构或跨组织团队执行。八、AGI 能力等级与风险等级的关系随着 AI 从 Emerging 走向 Competent、Expert、Exceptional风险也会发生变化。1. Emerging 阶段的主要风险错误与误用在初现能力阶段AI 已经能帮助人完成很多任务但可靠性不足。主要风险包括幻觉错误建议过度信任用户误用虚假信息传播自动化垃圾内容低门槛诈骗对教育和内容行业造成冲击。这个阶段的风险更多来自“能力不稳定但被过度使用”。2. Competent 阶段的主要风险广泛替代与流程重构如果 AI 在大量认知任务上达到普通熟练人类水平那么许多行业流程都会被重构。主要风险包括初级岗位减少工作技能退化对 AI 的依赖增强决策责任不清大规模内容生产导致信息污染教育评价体系失效企业内部知识工作被自动化。这个阶段最重要的问题不是 AI 是否超人而是它是否足够便宜、足够稳定、足够易用从而在大量场景中替代人工流程。3. Expert 阶段的主要风险专业领域冲击当 AI 在广泛任务上达到专家水平影响会更深如法律、医疗、金融、科研等专业领域被重塑专家岗位价值被重新定义人类专业判断可能被边缘化组织可能过度依赖 AI 决策经济结构和教育体系受到冲击。同时这个阶段也可能减少一些低等级风险例如简单任务出错率下降。但新的结构性风险会显著增加。4. Exceptional 与 ASI 阶段的主要风险对齐与控制如果 AI 在广泛任务上达到顶尖人类甚至超越所有人类风险将进入更高层级。核心问题变成它的目标是否与人类一致它是否会为了完成目标而采取不可接受手段它是否能欺骗人类监督者它是否会积累资源和权力它是否会被少数组织或国家垄断它是否会造成地缘政治不稳定人类是否还能理解和约束它的决策这类问题已经不只是产品安全问题而是社会治理问题。九、AGI 不等于高自治自治水平也需要分级除了能力等级还需要讨论 AI 的自治水平。一个 AI 系统即使具备强大能力也可以被限制为“工具”反过来一个系统即使能力有限也可能被赋予较高自动化权限从而带来风险。可以把 AI 的自治水平分为六级Level 0无 AI人类完全自己完成任务。例如手写、人工绘图、传统文本编辑器等。Level 1AI 作为工具人类完全控制任务AI 只用于辅助某些子任务。如搜索引擎辅助查资料语法检查工具修改句子翻译 App 识别路牌IDE 自动补全代码。此时 AI 不主导任务只是提高效率。Level 2AI 作为顾问AI 承担实质性工作但必须由人类主动调用。如让大模型总结文档让代码模型生成函数让推荐系统推荐内容让 AI 帮忙分析报告。此时风险包括过度信任、信息茧房、定向操纵等。Level 3AI 作为协作者AI 与人类共同完成任务双方进行持续互动和目标协调。例如AI 陪练棋手AI 与程序员共同开发项目AI 与设计师共同打磨方案AI 作为长期学习伙伴AI 作为虚拟角色进行互动。此时风险包括拟人化、情感依赖、社会关系变化等。Level 4AI 作为专家AI 主导任务人类主要提供方向、反馈或完成少量子任务。例如AI 主导科研假设生成AI 设计实验方案AI 完成复杂工程优化AI 提供专业诊断建议AI 主导商业分析和战略规划。这个阶段可能引发大规模岗位变化也会改变人类专家的角色。Level 5AI 作为 AgentAI 完全自主执行任务,如自主个人助理自主经营业务的 AI自主科研 Agent自主谈判和交易系统自主调用工具完成长期目标的系统。这是风险最高的自治级别尤其当它与高等级 AGI 结合时会带来对齐、权限控制、权力集中等问题。十、对开发者和产品设计者的启发、对企业应用 AI 的启发对开发者对于开发者来说AGI 分级并不是一个遥远的哲学问题而是会直接影响 AI 产品设计。1. 不要只看模型能力还要看交互方式同一个模型通过不同交互方式部署风险完全不同。例如一个代码模型如果只在 IDE 中提供补全建议风险较低如果它可以直接修改生产环境代码并自动上线风险就高很多。所以产品设计时要明确AI 是否能直接执行操作是否需要用户确认是否有撤销机制是否记录操作日志是否能解释决策依据是否能在不确定时暂停是否有权限边界2. 高能力不等于应该高自动化即使模型足够强也不一定应该让它完全自主。在医疗、法律、金融、安全、教育等高风险场景中即使 AI 能力达到 Expert也可能仍然需要人类监督。一个重要原则是能力等级决定“能不能”自治设计决定“该不该”。3. 必须设计“求助机制”高质量 AI 系统不应该假装什么都会而应该知道什么时候需要人类介入。这也需要AI“谦逊”、诚实、客观等。例如信息不足时主动澄清任务风险高时请求确认置信度低时给出不确定性说明输出可能影响现实后果时提醒用户无法完成任务时明确说明边界。这类机制是通往更高等级 AGI 的关键组成部分。4. 评测要贴近真实场景如果你在开发 AI 产品不应该只依赖公开 Benchmark。更好的方式是建立自己的场景化评测集用户真实问题业务真实流程常见失败案例高风险边界场景长上下文任务多轮交互任务工具调用任务人类专家对照评估。只有这样才能知道模型在实际产品中到底处于什么能力水平。对于企业应用AI时企业在引入 AI 时也可以借鉴 AGI 分级思想。1. 先判断任务属于窄域还是通用有些任务是窄域任务例如发票识别客服分类合同条款提取简历筛选数据报表生成。这类任务更适合用专门模型或流程自动化解决。有些任务则更接近通用任务例如战略分析产品规划复杂客户沟通跨部门知识整合研发辅助管理决策支持。这类任务需要更强的通用推理和上下文理解能力。2. 不同任务需要不同自治级别企业不应盲目追求“全自动”。例如内容润色可以 Level 1文档总结可以 Level 2项目方案共创可以 Level 3专业分析报告可以 Level 4自动执行交易或生产操作则需要极其谨慎。自治级别越高越需要权限管理、审计、回滚和责任划分。3. 建立内部 AI 风险分级企业可以根据任务影响范围将 AI 应用分为不同风险等级。例如低风险文案润色会议纪要知识库问答。中风险客户沟通建议数据分析代码生成合同初审。高风险医疗建议投资决策法律判断自动化运维人事决策生产系统控制。不同风险等级应匹配不同的人类审核和权限控制机制。十一、未来 AGI 评估可能的进一步发展方向未来 AGI 评估可能会从单一 Benchmark 走向综合评估体系。这个体系可能包括标准化任务评测真实场景模拟长期任务测试多轮交互测试工具使用测试自我校准测试危险能力测试人类专家评审部署后监控风险与自治等级映射。也就是说未来不会只用一个分数判断 AI而会形成类似“能力画像”的描述。例如某模型在语言任务上达到 Expert在代码任务上达到 Competent在数学推理上处于 Emerging在自我校准方面不足适合 Level 2 顾问式部署不建议用于 Level 5 自主 Agent 场景。这种描述比简单说“模型很强”更有意义。十二、总结AGI 是一套需要被细致度量的能力体系。合理的 AGI 理解方式是从三个维度展开第一性能。AI 在任务上相对于人类达到什么水平第二通用性。AI 能覆盖多少类任务是否具备学习新任务的能力第三自治性。AI 在实际系统中被允许自主完成多少操作在这个框架下AGI 不再是一个神秘概念而是可以被分级、评测、比较和治理的工程对象。当前大模型已经展现出 Emerging AGI 的特征并且在部分任务上达到 Competent 甚至 Expert 水平。但整体来看它们仍存在能力不均衡、可靠性不足、自我校准有限、长期规划较弱等问题。未来真正关键的不只是模型参数更大、跑分更高而是能否在真实任务中稳定表现能否学习新技能能否知道自己的边界能否与人类安全协作能否在高能力下保持可控能否根据不同场景选择合适自治等级。AGI 的核心问题最终不是“机器是否像人”而是它能做什么做得有多好覆盖范围有多广被赋予了多少自主权会带来什么风险人类应该如何设计、使用和约束它只有把这些问题拆开讨论我们才能更清晰地理解 AGI 的发展路径也才能更负责任地构建未来的 AI 系统。参考资料Position: Levels of AGI for Operationalizing Progress on the Path to AGI