【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO?

📅 2026/6/26 2:14:29
【清华代码熊】Agentic RL 背景下 PPO 为什么优于 GRPO?
今天拆解 GLM-5.2 在长程 Agentic 任务下替换 group-wise GRPO 为 critic-based PPO 的逻辑结合我们前段时间解析过的 Agentic-RL 算法总结 与 OPD 算法总结。