一周 AI 新鲜事|2026.06.15—2026.06.21 📅 2026/6/27 5:32:04 AI不再只会回答它开始拥有时间、团队和现实世界过去我们评价一个大模型最常问的是它参数有多大跑分有多高能不能写代码能不能生成视频但在2026年6月15日至6月21日这一周AI行业出现了一条更加清晰的主线AI竞争正在从“单次回答有多聪明”转向“能否持续完成一件复杂的事情”。这一周的重要变化并不只是模型能力又提高了几个百分点而是AI开始逐渐获得五种过去缺失的能力更长的任务记忆可持续运行的时间轴多智能体协作组织对真实软件和设备的操作能力面向企业级安全、审计和回滚的基础设施。换句话说AI正在从一个“对话框”变成一种新的数字劳动力。一、智谱发布GLM-5.2一百万上下文不只是为了塞进更多文档6月16日智谱发布GLM-5.2将重点放在长周期任务、超长上下文和推理效率上。GLM-5.2提供100万Token上下文窗口引入IndexShare架构并对多Token预测和推测解码进行了优化。在100万上下文场景下IndexShare可以将单Token计算量降低约2.9倍其多Token预测优化则将可接受的预测长度最多提升约20%。模型以MIT许可证开放权重。[1]表面看这是一次“上下文从几十万增加到一百万”的模型升级。但真正值得关注的问题是100万上下文到底意味着什么Token可以粗略理解为模型阅读和生成文本时使用的基本单位。100万Token并不等于模型拥有了人类意义上的永久记忆它更像是模型在一次任务中能够同时摆在“工作台”上的材料更多了。例如一个软件项目可能包含数百个C#文件SQL Server数据库脚本产品需求文档接口说明历史Bug记录日志文件测试报告部署文档。过去的模型只能读取其中一部分因此开发者必须不断切割文件、压缩上下文、重新解释项目背景。上下文达到100万Token之后模型理论上可以一次性获得更完整的项目视图。但这里必须纠正一个常见误区上下文越长不代表模型一定理解得越准确。把整个代码仓库一股脑塞给模型就像把公司所有文件堆到一个新员工桌上。资料虽然齐全但他不一定知道哪些文件重要、哪些已经过期、哪些规则必须遵守。所以长上下文真正的价值不是“无限塞文档”而是为长周期任务提供信息基础。什么是长周期任务长周期任务英文通常称为Long-horizon Task。它不是让AI回答一个问题而是要求AI经过几十步甚至上百步操作最终完成一个完整目标。例如检查一个WinForms呼叫中心项目中的MQTT重连问题分析CPU暴涨原因修改重连机制补充线程安全控制编译项目执行测试并生成变更报告。这个任务需要AI持续记住最初的业务目标已经检查过哪些类修改了哪些代码哪些问题仍未解决测试是否通过当前修改有没有破坏旧功能。真正困难的不是生成某一段代码而是经过长时间、多步骤执行后仍然不偏离目标。这也是GLM-5.2强调长任务能力的根本原因。IndexShare解决的是什么问题传统注意力机制在上下文变长后计算成本会迅速上升。可以把注意力理解为模型每生成一个新Token都要回头判断前面哪些内容与当前问题相关。当上下文达到100万Token时如果每一层都重新扫描大量历史内容计算和显存成本都会非常高。IndexShare的思路是让多个稀疏注意力层共享或复用索引结果减少重复寻找相关内容的计算。这类似于数据库查询如果每次查询都全表扫描数据量越大速度越慢如果提前建立索引并让多个查询复用索引效率就会显著提高。推测解码又是什么推测解码可以理解为“先猜后验”。一个较轻量的预测模块先一次性猜测后面可能出现的多个Token再由主模型统一检查。猜对的部分可以直接采用猜错的部分重新计算。这类似于程序员使用智能补全IDE一次推荐一整段代码程序员只需要确认哪些部分可以接受而不是逐字输入。因此大上下文并不是单纯的模型规模竞赛它已经开始与推理成本、生成速度和工程可用性绑在一起。二、ChatGPT推出定时任务Codex开始“看你操作一次以后自己干”6月17日OpenAI为ChatGPT推出新的Scheduled Tasks能力。用户可以设置准确时间也可以设置“每天早上”“每周下午”等时间窗口让ChatGPT在未来自动执行任务。监控型任务还可以搜索互联网和已连接的应用只在发现值得关注的变化时发送通知。[2]6月18日OpenAI又为Codex推出Record Replay能力。用户可以先完整演示一次操作流程Codex观察并记录这个过程然后将其转换为可以重复执行的技能。[3]这两项能力放在一起看意义远大于普通功能更新。因为AI开始获得两种过去没有的东西时间触发能力操作流程记忆。定时任务意味着AI拥有了“时间轴”以前的大模型基本是请求—响应模式用户问一句模型回答一句。没有用户发起请求模型就不会主动工作。Scheduled Tasks改变了这一点。AI开始可以根据时间或条件自动运行例如每天早上分析最新AI新闻每周检查GitHub项目中长期未处理的Issue每小时检查某个服务是否出现异常每个月汇总部门销售和客户投诉数据发现某个竞争对手发布新产品时再通知用户。从软件架构角度看这相当于把大模型与以下系统结合起来定时器 工作流引擎 搜索系统 消息通知系统。传统ChatGPT只是一个函数输入问题 → 输出答案。加入定时任务之后它开始接近一个持续运行的后台服务触发条件 → 搜集信息 → 分析判断 → 决定是否行动 → 发送结果。这就是异步智能体。异步智能体不要求用户一直守在聊天窗口前而是在后台按照规则工作。Record Replay是什么Record Replay背后的概念叫做Programming by Demonstration基于演示的编程。传统自动化需要程序员提前写清楚每一步打开系统点击某个菜单选择日期导出报表重命名文件上传到指定位置。而基于演示的编程是你先做一遍AI观察你如何操作再把过程抽象成可以重复执行的技能。例如一名财务人员可以演示登录内部财务系统打开月度报表设置上个月日期导出Excel打开邮箱将文件发送给负责人。以后AI就可以重复这套流程。这并不只是RPA的升级版。传统RPA严重依赖固定坐标、固定控件和固定流程。一旦按钮移动、网页布局改变自动化就可能失效。AI驱动的操作更强调语义理解。它不是记住“点击坐标X412、Y286”而是理解我要点击“导出月度报表”按钮。这意味着未来大量企业软件会出现一种新的使用方式人不再直接操作每一个功能而是告诉AI目标让AI代替人操作软件。三、Qwen Code推出Agent TeamAI编程开始出现“组织结构”6月18日Qwen Code发布多项更新其中包括实验性的Agent Team模式和可持久化的定时循环任务。在Agent Team模式中可以创建多个具有不同职责的智能体。它们拥有共享任务列表可以互相发送消息并由一个主智能体负责协调和汇总。与普通的一次性子智能体不同这些团队成员能够在任务过程中持续存在。[4]这意味着AI编程正在从一个AI助手帮助一个程序员写代码升级为多个AI角色共同完成一个软件工程任务。什么是多智能体多智能体并不是简单地同时打开三个聊天窗口。真正的多智能体系统至少需要具备明确的角色分工共享任务状态智能体之间的通信任务依赖管理冲突检测结果汇总最终责任主体。假设需要审查一个C# WinForms人力资源系统可以建立四个智能体架构智能体负责检查分层设计、模块依赖和代码耦合。数据库智能体负责检查SQL注入、索引缺失、事务范围和慢查询。线程安全智能体负责检查Control.Invoke、后台线程、死锁和资源释放问题。测试智能体负责构造边界条件、回归测试和异常场景。最后由Leader Agent汇总哪些问题必须立即修复哪些属于性能优化哪些修改可能影响旧业务建议如何分阶段实施。这更像一个虚拟软件开发团队而不是代码补全工具。多智能体最容易失败在哪里很多人认为多开几个Agent就能自动提高效率。实际上多智能体系统很容易出现新的问题多个智能体重复做同一件事不同智能体给出冲突结论子智能体不知道主任务发生了变化没有统一代码规范修改了同一个文件导致合并冲突每个局部结果都正确整体系统却无法运行。因此多智能体真正需要解决的并不是“数量”而是组织管理。这与现实企业非常相似。公司不是人越多越有效率而是需要清晰的职责、流程、接口和验收标准。四、上下文工程成为AI编程的核心能力在6月15日的AWS官方周报中AWS再次重点介绍其“前沿团队”实践。AWS披露的内部案例显示一支6人团队在76天内重构了Amazon Bedrock推理引擎而传统估算需要约30名开发者、12至18个月。AWS同时表示其部分内部试点团队生产效率中位数提升约4.5倍个别团队超过10倍。[5]这些数字属于AWS自身案例并不能直接等同于所有企业都能获得同等效率。但AWS总结的几条经验非常重要为智能体准备高质量项目上下文将任务拆成边界清晰的小任务提前写清楚意图、约束和验收标准将测试前移接受团队初期效率可能下降。这背后对应一个越来越重要的概念Context Engineering上下文工程。上下文工程和提示词工程有什么区别提示词工程主要研究这一句话应该怎么问模型才能回答得更好上下文工程研究的是为了让AI长期、稳定、可重复地完成任务应该给它提供什么信息、工具、规则和反馈上下文工程包含的内容远比提示词多项目架构说明数据库结构业务词典编码规范文件修改边界可使用的工具测试命令错误日志历史决策安全限制验收标准失败后的恢复方式。例如让AI修改一个老旧WinForms项目仅仅告诉它帮我优化这段代码。效果通常不稳定。更专业的上下文应该包括项目使用.NET Framework 4.5.2只能使用C# 6.0语法不允许升级NuGet依赖UI控件只能在主线程更新不能修改现有数据库表结构所有公共方法必须保留原签名修改后必须通过指定编译命令必须输出修改文件、风险和验证结果。这已经不是提示词而是一套AI软件工程环境。未来企业之间的AI开发差距很可能不会主要来自“谁买了更贵的模型”而是来自谁拥有更完整、更准确、更可执行的上下文体系。五、Meta把AI Mode放进Facebook搜索开始从“网页数据库”变成“社会经验数据库”6月15日Meta宣布在Facebook中推出AI Mode搜索标签。用户提出问题后Meta AI不仅可以引用网页信息还可以结合Facebook公开群组、Reels和用户公开分享的内容生成带有社区经验和个人观点的回答。[6]这代表AI搜索正在出现新的分支。传统搜索引擎主要检索网页。第一代AI搜索在网页检索基础上对多个结果进行总结。Meta正在尝试加入另一类数据人类在社交网络中公开表达的经验、意见和文化偏好。例如用户搜索旧金山湾区适合新手的周末徒步路线有哪些传统搜索可能返回旅游网站和路线攻略。Meta AI Mode则可能综合徒步群组中的真实讨论用户发布的路线视频评论区里对停车、天气和难度的反馈当地用户近期的实际体验。可以把这种模式称为Social Grounding社会化信息锚定。它的价值在于很多问题并没有唯一标准答案。例如哪家餐厅更适合约会某款显卡的实际噪声如何某个景区周末到底拥不拥挤某个软件更新后是否更耗电这些问题往往需要真实用户经验而不是官方参数。但风险也很明显。社交内容中可能存在群体偏见水军营销情绪化评价过时经验信息茧房热度取代真实性。当AI把几十条个人观点压缩成一个看似确定的答案时用户可能忘记这个答案本质上只是对群体意见的统计性总结而不是客观事实。因此未来AI搜索的竞争不只是“谁回答更快”还包括信息来自哪里是否能够追溯如何区分事实与观点如何防止热门内容淹没少数但正确的信息原创内容生产者能否获得署名和收益。六、NVIDIA与HPE扩展AI Factory智能体时代企业最缺的可能不是GPU6月16日NVIDIA与HPE公布新的AI Factory基础设施方案加入NVIDIA Vera CPU并扩展面向企业智能体的Agent Toolkit。该方案强调对模型、技能和工具进行注册与审批同时提供行为监控、治理策略、数据保护和异常操作回滚能力。[7]很多人把AI基础设施理解为买GPU、建机房、部署大模型。但AI Factory并不只是GPU集群。它更接近一条完整的AI生产线数据 → 训练或推理 → 模型 → 智能体 → 工具调用 → 权限控制 → 监控 → 审计 → 回滚。为什么智能体时代更需要CPU传统大模型推理主要消耗GPU算力。但智能体执行任务时会进行大量非模型计算调用数据库解析JSON访问API操作文件控制浏览器管理任务队列判断权限记录审计日志协调多个智能体等待外部系统返回结果。这些工作不一定由GPU完成很多依赖CPU、内存、网络和存储系统。因此当AI从单次回答变成连续执行任务时系统瓶颈可能从“模型算力不足”转向工具调用延迟状态管理混乱权限控制不足多智能体调度冲突数据无法恢复错误行为不可回滚。为什么回滚能力这么重要假设一个企业智能体拥有以下权限修改客户资料调整商品价格发送营销短信创建采购订单删除过期数据。一旦模型理解错误损失可能不是“回答错了一句话”而是直接修改真实业务数据。因此企业智能体必须具备类似数据库事务的能力执行前保存状态检查权限高风险操作要求人工确认记录所有操作出现异常后恢复到干净状态。未来企业AI系统的核心竞争力不只是模型聪明而是即使AI犯错系统仍然不会失控。七、中国发布“人工智能消费”政策AI开始从互联网功能走向真实产业6月18日商务部等部门对外发布《关于促进人工智能应用服务消费的指导意见》围绕五个方向提出17项措施。政策涉及AI手机、AI电脑、AI电视、智能家居、AI眼镜、陪伴机器人、养老机器人、数字人、电商运营、智能客服、物流、低速无人车和无人机等多个领域。[8]这份文件最值得关注的不是列举了多少AI产品而是释放出一个明确方向AI发展开始从模型能力竞赛转向大规模应用场景建设。什么叫场景牵引技术行业过去常见的路径是先有技术突破再寻找应用场景。场景牵引则反过来先明确真实业务问题再用场景逼迫技术成熟。以养老机器人为例它并不是接入一个聊天模型就算完成。真正进入养老场景还需要解决老人跌倒检测生命体征监测紧急联系人通知方言识别误操作防护隐私保护电池续航室内导航人工服务接管医疗责任边界。真实场景会迫使AI从“演示效果不错”升级为可靠、便宜、安全、可维护。AI消费不会只发生在聊天软件里未来的AI入口可能分布在手机眼镜汽车家庭机器人电视商场酒店景区医疗和养老设备。这意味着AI应用将从“用户主动打开一个App”逐渐变成AI持续存在于设备和环境中根据场景主动提供服务。例如AI眼镜看到用户面对外文菜单可以实时翻译家庭AI发现老人长时间没有活动可以询问并联系家属商场AI根据库存、天气和客流自动生成促销方案健身房AI根据会员到店频率识别即将流失的客户并安排教练回访。这类应用的价值不在于生成一段漂亮文字而在于影响真实世界中的交易、效率和服务质量。因此中国AI商业化的下一轮竞争很可能不只是大模型公司之间竞争而是模型公司硬件企业软件服务商行业数据拥有者渠道和线下服务商共同争夺具体应用场景。八、Anthropic进入韩国G7讨论模型访问AI主权问题浮出水面6月17日Anthropic宣布在首尔设立办公室并与韩国科学技术信息通信部签署合作备忘录合作方向包括AI安全、网络安全以及韩语模型安全评估。Anthropic同时披露NAVER已在整个工程组织中部署Claude Code涉及数千名工程师LG CNS、Samsung SDS等韩国企业也在扩大Claude的企业应用。[9]同一周在G7相关讨论中欧洲方面公开强调需要确保企业和研究机构能够访问先进AI模型同时对模型进行类似航空安全体系的测试和监管。[10]这引出了一个未来几年会越来越重要的概念AI SovereigntyAI主权。AI主权并不等于每个国家都必须从零训练自己的大模型。它更强调一个国家或企业是否拥有以下能力能否持续访问关键模型数据是否可以留在本地模型服务会不会突然中断是否拥有替代模型能否审计模型行为是否能够自主控制权限和合规模型升级是否影响现有业务。假设一家银行将核心业务完全绑定在某个海外闭源模型上。如果未来出现服务区域调整API价格大幅上涨模型突然下线数据合规要求变化某些能力受到访问限制银行可能会发现自己并不真正掌握这套AI系统。因此成熟企业未来不会简单地“选择一个最强模型”而会建设模型网关。模型网关可以根据任务动态选择闭源高性能模型国内合规模型本地开源模型专门的代码模型低成本小模型。这类似数据库领域的高可用和灾备体系。模型不再只是一个API而会成为企业数字基础设施的一部分。本周五个AI新概念一次说透1. 长周期任务AI经过大量步骤持续完成一个目标而不是只进行一次问答。核心难点是目标保持、状态管理、错误恢复和阶段验证。2. 上下文工程通过项目文档、业务规则、工具权限、测试环境和反馈机制为AI构建可执行的信息环境。它比提示词工程更系统也更接近软件工程。3. 多智能体多个具有不同职责的AI通过共享状态和通信机制协同完成复杂任务。真正的难点不是创建更多Agent而是组织、协调和验收。4. AI Factory将算力、模型、数据、智能体、权限、监控、治理和回滚整合成完整的AI生产系统。它不是简单购买一批GPU。5. AI主权国家或企业对模型访问、数据位置、系统连续性、安全治理和替代方案的控制能力。它会成为未来企业数字化战略的重要组成部分。对软件开发者来说这一周意味着什么对于普通开发者尤其是企业软件开发者最重要的不是立刻学习所有新模型而是重新理解软件系统的边界。过去的软件流程通常是用户点击按钮 → 程序执行固定代码 → 返回固定结果。未来的软件流程会越来越接近业务事件触发 → 智能体分析 → 制定计划 → 调用多个工具 → 检查结果 → 请求人工确认 → 执行操作 → 保存审计记录。以C#企业系统为例可以形成这样的架构定时任务或业务事件 ↓ Agent Orchestrator 智能体编排层 ↓ 大模型负责理解、规划和判断 ↓ 工具适配层 ├── SQL Server查询工具 ├── 内部HTTP接口 ├── 文件与报表工具 ├── 邮件和短信工具 └── 第三方业务系统 ↓ 权限检查与人工审批 ↓ 状态存储、日志、审计与回滚在.NET技术体系中可以用Quartz.NET或Hangfire处理任务调度用ASP.NET Core提供智能体服务用SQL Server保存任务状态、审批记录和执行日志。但有三条原则必须坚持。第一大模型不能直接拥有无限制数据库权限。第二高风险操作必须增加人工确认和幂等性控制。第三任务状态必须存储在外部系统中不能只依赖模型上下文。即使模型拥有100万Token上下文也不能把它当成可靠数据库。上下文会被截断模型可能遗忘任务也可能中断。真正可靠的智能体系统必须将以下内容结构化保存当前任务阶段已完成步骤工具调用结果待审批事项错误次数重试策略最终输出。AI竞争进入“执行可靠性”时代2026年6月15日至6月21日这一周没有出现一个足以单独定义行业的超级模型。但多个事件组合在一起却揭示了一个重要转折GLM-5.2在解决长任务所需的上下文和推理成本OpenAI为智能体增加时间轴和操作记忆Qwen Code开始建立多智能体团队AWS把上下文工程变成AI开发方法论Meta尝试将社会经验变成AI搜索的数据层NVIDIA与HPE开始建设可治理、可回滚的AI工厂中国则在通过消费场景推动AI进入真实世界。这说明AI行业的核心问题已经发生变化。过去的问题是模型能不能完成这件事未来的问题是模型能不能连续、稳定、安全、低成本地完成这件事并且在出错后可以被发现、被停止、被恢复模型智商仍然重要。但真正决定AI能否进入企业核心业务的将是另一组能力执行可靠性上下文完整性工具可控性状态持久化权限治理人机协作错误恢复。AI正在从知识工具转变为行动系统。而软件开发者的角色也将从“亲自编写每一个执行步骤”逐渐转向设计目标、定义边界、组织上下文、配置工具、监督智能体并为最终结果负责。