曾被顶会拒稿的PPO算法,如今成大模型后训练绕不开的基础算法!

📅 2026/6/22 9:42:06
曾被顶会拒稿的PPO算法,如今成大模型后训练绕不开的基础算法!
【导语PPO算法作为后来在RLHF和大模型训练中被广泛使用的经典算法曾被NIPS 2017拒之门外。而AI史上不少后来被证明影响深远的工作都曾在最初投稿时被顶会拒稿时间才是最严格、也最公平的评审。】PPO算法从被拒到走向更大舞台PPOProximal Policy Optimization这个经典算法最早在2017年7月发布的论文当时看起来只是一个更简单、更工程友好的策略优化算法。它的目标是在保留TRPO稳定性的同时降低实现复杂度让强化学习训练更好调、更实用。但当年却被NIPS 2017拒之门外最近由PPO作者John Schulman本人提起此事。几年之后真正把PPO推向更大舞台的不是Atari、机器人控制这些传统强化学习任务而是大语言模型。从RLHF到今天的RLVRPPO成了大模型后训练里绕不开的基础算法之一。按照Schulman的说法PPO在LLM时代迎来第二波热潮原因甚至超出了原论文当年的预期。PPO被拒原因创新性有限、提升不明显Schulman后来给出PPO被拒的解释是这篇论文在当时被认为创新性有限相比已有基线方法的提升也不够明显。有网友评论这背后折射出学术评价与真实产业需求之间的一种错位。学术界往往更看重新颖性以及在小规模、受控实验环境下相对基线的提升而真实世界更在意的是方法能不能扩展到更大规模能不能在复杂系统里保持稳定能不能真正跑得起来。时间检验AI史上被拒稿的深远影响工作其实不止PPOAI史上不少后来被证明影响深远的工作都曾在最初投稿时被顶会拒之门外。比如LSTM在1996年被NIPS拒稿当时被认为过于复杂、缺乏生物学合理性但后来成为语音识别、机器翻译等序列建模任务的核心技术。SIFT曾被ICCV 1997、CVPR 1998拒稿原因是工程步骤繁琐、不够优雅但它后来统治前深度学习时代的计算机视觉十多年。Dropout在2012年被NIPS拒稿被认为像工程hack、理论解释不够严谨但它后来成为深度神经网络最重要的正则化方法之一并获得NeurIPS时间检验奖。编辑观点PPO等算法的经历表明学术评价与产业需求存在差异时间会证明技术的真正价值不应仅以学术评审的一时结果来评判技术的潜力。