智谱GLM - 5.2完全开放,放弃GRPO引发强化学习算法选择讨论

📅 2026/6/21 18:11:15
智谱GLM - 5.2完全开放,放弃GRPO引发强化学习算法选择讨论
【GLM - 5.2完全开放】6月13日智谱在X平台宣布GLM - 5.2完全开放并将正式开放时间定在了当晚5点21分——一个「特殊时刻」。很多人认为这个数字并非随意挑选美国政府向Anthropic下发出口管制指令、切断Fable 5与Mythos 5境外访问权限的那一刻正是美国东部时间下午5点21分。「5点21」这个数字上的重复被多家媒体解读为一次刻意设计的呼应。智谱选择在这个节点站出来相当于当着全世界开发者的面表明你们担心的「模型随时可能被收回」开源这边不存在这个问题。【GLM - 5.2的实力表现】这次发布确实有足够的底气。GLM - 5.2是一个744B参数、激活40B的MoE模型遵循MIT协议完全开源支持真正可用的1M token上下文。在长程任务基准FrontierSWE上它拿到74.4%逼近Claude Opus 4.8的75.1%反超GPT - 5.5的72.6%。不少开发者实测后表示这是第一个让他们认真考虑用来替换Opus或GPT工作流的开源模型。昨天Design Arena发布的博客《GLM - 5.2如何在网站设计上击败了Fable 5》更是成为爆款文章引发了广泛关注和热议。【GLM - 5.2放弃GRPO】然而比这些分数更让技术圈关注的是一个差点被淹没在技术博客角落里的细节GLM - 5.2在长程强化学习阶段放弃了GRPO。这件事虽小却像一根针扎破了一个维持了一年多的共识。GRPOGroup Relative Policy Optimization群体相对策略优化由DeepSeek于2024年在DeepSeekMath论文中提出又经DeepSeek - R1验证此后几乎成了开源社区训练推理模型的默认答案——不需要价值网络也能训出强推理能力。GLM - 5.1的强化学习阶段用的正是这套思路。一年多以后GLM - 5.2悄悄把它换掉了这意味着一个被验证过的范式正在被它最早的追随者之一悄悄抛弃。【技术社区的反应】消息传开后X上的讨论很快分成了几条线。有人把这件事称为「critic回来了」。开发者hallerite的判断很直接群体内比较这种降低方差的办法过了某个任务长度之后根本行不通模型需要更细粒度的信号OpenAI和Anthropic大概早就在用价值网络了。类似的帖子非常多有人说自己在小规模项目里对比过GRPO和actor - critic结果actor - critic的表现明显更好也有人怀疑OpenAI和Anthropic等前沿实验室在长程任务上本来就没有真正依赖过GRPO这只是长程任务迟早要撞上的一道墙比如ethayarajh就指出曾被NeurIPS拒收的PPO这条路线其实更贴近强化学习圈子里常说的「苦涩的教训」bitter lesson——足够通用、能随计算量扩展的方法往往比结构精巧但有适用边界的方法走得更远。Xiuyu Li提醒一些长期做长程任务训练的团队本来就从未真正全面采用过GRPOPPO甚至REINFORCE一直是这些团队的底色。学术界则是另一幅景象GSPO、DAPO、Dr.GRPO、GMPO、CISPO等变体仍在源源不断地涌现试图把GRPO在效率和稳定性上的毛病一个个打磨掉。工业界悄悄回头学术界继续往前冲这个反差很值得思考。【智谱为什么换掉了GRPO】要理解这次切换得先弄清楚GRPO最初解决的是什么问题。传统PPO需要一个价值网络critic专门预测「当前状态未来能拿多少奖励」用来给每一步动作算优势值。这个网络和策略模型一样大训练起来成本高也容易不稳定。GRPO的办法是不训练这个价值网络了改成让模型对同一个问题生成一组通常是几十个回答拿组内平均奖励当基线谁比组内平均分高优势值就为正。这就像让同一道题的几十名学生同时交卷再互相比较打分——不需要一个全知的阅卷老师矮子里也能拔将军。对数学题、单元测试这类有明确对错的短任务这个办法省显存又稳定DeepSeek - R1之后几乎成了开源社区的默认选项。GLM - 5.1的强化学习阶段用的正是这套思路组大小固定为32。但GLM - 5.2瞄准的是另一类问题长程智能体任务。根据智谱技术博客披露的内容这类任务的执行轨迹远比解一道数学题长涉及多轮工具调用、子任务拆解、跨多轮的环境反馈。一条轨迹经过压缩compaction处理后子轨迹的数量和长度会变得参差不齐。这正好打中了GRPO的软肋它要求把同一个问题下的一组输出放在一起比较可长程任务压缩出来的子轨迹长短不一有的三言两语有的拖了几十步根本凑不成一组可以公平比较的样本。继续硬上组内比较大量数据会变得没法用。智谱给出的解法是把价值网络请回来。GLM - 5.2的长程强化学习从「群体相对优化」转向了「基于critic的PPO」用token级别的优势值去适配长短不一的子轨迹——不再依赖一组同伴互相打分而是重新训练一个能给任意一段轨迹独立估值的「阅卷老师」。配合这次改动智谱用slime框架把训练和大规模推理rollout打通将十余个专家模型并行蒸馏合并进最终模型整个过程只用了约两天。针对coding任务里常见的奖励作弊比如直接curl拉取参考答案、grep搜索隐藏测试用例文件GLM - 5.2还引入了一套两阶段拦截机制先用规则过滤再用LLM裁判识别可疑工具调用拦截后返回一段无意义的「假信息」让训练轨迹继续走下去而不是粗暴中断以免引发训练不稳定。简单说GLM - 5.2并未否定GRPO而是发现GRPO的设计前提在长程智能体任务里站不住了。【GRPO真的过时了吗】把这次切换简单总结成「GRPO不行了」可能是个偷懒的结论。GRPO当年能火起来解决的是一个很具体的问题在有明确对错的可验证任务上用尽可能少的显存、尽可能稳定的方式做强化学习。这件事它依然做得很好。数学题、代码单元测试、格式校验这类短任务答案就在那一组采样里组内比较的成本优势依然成立。也因此GSPO、DAPO这些变体还在持续打磨GRPO在MoE训练、长思维链场景下的毛刺而不是直接宣布它退场。一个更能说明问题的例子是GRPO的提出者自己。今年4月发布的DeepSeek V4技术报告显示DeepSeek在训练数学、代码、Agent、指令跟随等分领域专家模型时用的依然是GRPO只是在把多个专家合并回一个统一模型时换成了一种叫「在策略蒸馏」On - Policy Distillation的新方法。GLM - 5.2换掉的其实是GRPO在另一类任务多轮、长程、奖励稀疏且延迟的智能体任务上的适用性。这类任务里「这一步做得好不好」往往要等到几十步之后才能从最终结果反推回来而且任务跑出来的轨迹长短千差万别很难找到一组「条件相同」的样本去做组内对比。这个判断不只是工业界这一轮的经验之谈学术界也有对照实验支持。去年底一篇题为《Learning Without Critics? Revisiting GRPO in Classical Reinforcement Learning Environments》的论文专门做过测试在没有提前终止机制的长程任务里不带critic的方法持续比不过带学习到的价值函数的PPO只有像CartPole这种短程任务组内比较的方式才能打平。这个结论和GLM - 5.2这次的选择算是从工业实践和学术实验两个完全不同的方向得出的同一个判断。所以更准确的说法可能是强化学习算法的选择正在变得任务相关而不再有一个放之四海而皆准的「默认选项」。短程可验证任务GRPO及其变体依然够用、依然便宜。长程智能体任务价值网络重新变得重要。GLM - 5.2引发的讨论之所以有分量是因为它把这道分界线第一次摆在了公开的技术博客里让一个本来只停留在小圈子传闻里的判断前沿实验室可能压根没指望靠GRPO走到长程任务有了一个开源、可复现、可供外界验证的对照样本。【结语】过去两年GRPO几乎成了开源大模型强化学习阶段的代名词一种「便宜又好用」的默认信仰。GLM - 5.2的选择提醒人们这种信仰本身是有边界的——它诞生于数学题和单元测试的世界而现在的智能体正在被推向需要连续工作几小时甚至更久的真实任务。对整个行业而言这次切换的意义可能超过1M上下文或者基准分数本身。它说明随着开源模型从「答题选手」走向「干活的智能体」后训练阶段的算法选型也要跟着任务形态一起进化而不能停留在某一篇论文定下的范式里。下一次范式松动会发生在哪里没有人能提前给出答案但可以确定的是这场关于强化学习未来走向的争论才刚刚开始。