出人意料!DeepSeek
核心观点:在2025年初引发广泛关注的大模型推理训练中,DeepSeek-R1因采用GRPO(Group Relative Policy Optimization)算法而备受瞩目。然而,一项由阶跃星辰与清华大学联合发布的最新研究揭示,在规模化强化学习训练中,经典的PPO(Proximal Policy Optimization)加上极简的奖励函数设计,即可实现与GRPO相当甚至更优的推理效果。这一发现不仅挑战了当前主流的技术路径选择,也为2026年及未来的大模型强化学习训练提供了更简洁、更高效的替代方案。
背景回顾:GRPO为何被视为“关键先生”?
2025年,DeepSeek-R1的发布标志着大模型在推理能力上的重大突破。其技术报告明确指出,GRPO是其强化学习框架的核心。与传统的PPO相比,GRPO通过移除价值模型,并利用分组内的相对分数作为基线,显著降低了训练资源消耗。这一设计在数学推理等任务中表现出色,使得模型能够自主涌现出复杂的推理链,并在多个基准测试中取得领先。
然而,技术的演进往往伴随着反思。2026年的AI社区不再满足于“效果至上”,而是开始追求效率与简洁性的平衡。GRPO虽然创新,但其分组策略和基线估计机制增加了网络设计和调参的复杂度。
颠覆性发现:PPO+极简规则的胜利
阶跃星辰与清华大学的联合团队在其论文《Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model》中,提出了一个令人意外的结论:仅使用标准PPO,配合GAE(λ=1, γ=1)和基于规则的简单奖励函数(不带任何KL正则化),即可实现与DeepSeek-R1-Zero类似的响应长度拓展和基准性能提升。
这一极简方案被命名为Open-Reasoner-Zero。在GPQA Diamond基准测试中,该模型表现优于DeepSeek-R1-Zero-Qwen-32B,而训练步数仅为后者的1/30。这意味着,在推理强化学习领域,复杂的算法设计并非必须,基础方法的潜力远未被充分挖掘。
2025-2026年市场视角:从“算法竞赛”到“工程落地”
进入2026年,AI行业的重心已从单纯的模型能力竞赛,转向了模型训练的效率化和商业化落地。亚洲市场,尤其是中国和东南亚,对计算资源的经济性要求极高。
- 成本优势:GRPO虽然减少了参数量,但其分组和评分机制在实际部署中往往需要更精细的工程优化。而PPO作为经过多年验证的成熟算法,其生态系统(如RLlib、Stable-Baselines3)支持更完善,能更快适应不同规模的训练集群。
- 开源生态:Open-Reasoner-Zero已完全开源(包含代码、参数设置、训练数据和权重),这直接降低了入局门槛。相比GRPO的少数实践者(如DeepSeek),PPO方案能吸引更多开发者进行二次创新,尤其在金融风控、法律文档分析等需要快速定制推理模型的垂直领域。
- 算力敏感性:2026年,虽然高端GPU供应趋于稳定,但大模型训练成本依然高昂。使用PPO的极简方案意味着更少的超参数调整和更短的探索周期,这对亚洲中小科技企业尤其有利。
原分析:GRPO是否等于“过度设计”?
从技术根源看,GRPO通过分组基线去除了价值网络,本质上是对PPO中“价值函数近似”的一种简化。然而,这项研究证明,在推理任务场景下,当奖励信号清晰且唯一(如代码是否通过测试、数学答案是否正确)时,PPO的价值网络可以被完全丢弃,而通过GAE的极端参数设置(γ=1, λ=1)实现无偏的长期回报折扣——这恰恰是GRPO试图通过分组达到的目标。
换言之,GRPO的优势主要体现在基线估计的不确定性较高时(例如开放域对话),而在规则明确的推理任务中,PPO的原始设计已经足够。
此外,GRPO的“组内相对评分”引入了额外的采样噪声,可能导致训练初期的不稳定。而PPO+无KL正则化的方案,允许策略更自由地探索,从而在更少的步数内收敛到优势区域。
结论:不要神化算法,回归基础设计
DeepSeek-R1的成功在于其系统性的工程创新,而非GRPO单点技术的威力。2026年的AI从业者应意识到:
- 任务匹配是核心:对于具有明确客观评价标准的推理任务(数学、代码、逻辑),极简PPO足以胜任。
- 效率就是竞争力:多关注像Open-Reasoner-Zero这样的开源项目,减少无意义的算法“军备竞赛”。
- 亚洲市场启示:利用这一发现,可以开发更轻量的推理模型,服务于移动端、低功耗设备等场景,这与2026年全球AI下沉化、绿色化的趋势高度吻合。
未来,强化学习训练的“减负”或将成为一个新方向,而PPO的复兴,可能是这一进程的起点。
