出人意料！DeepSeek

📅 2025-02-25 👁 155 次阅读 📂 区块链与Web3

核心观点：在2025年初引发广泛关注的大模型推理训练中，DeepSeek-R1因采用GRPO（Group Relative Policy Optimization）算法而备受瞩目。然而，一项由阶跃星辰与清华大学联合发布的最新研究揭示，在规模化强化学习训练中，经典的PPO（Proximal Policy Optimization）加上极简的奖励函数设计，即可实现与GRPO相当甚至更优的推理效果。这一发现不仅挑战了当前主流的技术路径选择，也为2026年及未来的大模型强化学习训练提供了更简洁、更高效的替代方案。

背景回顾：GRPO为何被视为“关键先生”？

2025年，DeepSeek-R1的发布标志着大模型在推理能力上的重大突破。其技术报告明确指出，GRPO是其强化学习框架的核心。与传统的PPO相比，GRPO通过移除价值模型，并利用分组内的相对分数作为基线，显著降低了训练资源消耗。这一设计在数学推理等任务中表现出色，使得模型能够自主涌现出复杂的推理链，并在多个基准测试中取得领先。

然而，技术的演进往往伴随着反思。2026年的AI社区不再满足于“效果至上”，而是开始追求效率与简洁性的平衡。GRPO虽然创新，但其分组策略和基线估计机制增加了网络设计和调参的复杂度。

颠覆性发现：PPO+极简规则的胜利

阶跃星辰与清华大学的联合团队在其论文《Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model》中，提出了一个令人意外的结论：仅使用标准PPO，配合GAE（λ=1, γ=1）和基于规则的简单奖励函数（不带任何KL正则化），即可实现与DeepSeek-R1-Zero类似的响应长度拓展和基准性能提升。

这一极简方案被命名为Open-Reasoner-Zero。在GPQA Diamond基准测试中，该模型表现优于DeepSeek-R1-Zero-Qwen-32B，而训练步数仅为后者的1/30。这意味着，在推理强化学习领域，复杂的算法设计并非必须，基础方法的潜力远未被充分挖掘。

2025-2026年市场视角：从“算法竞赛”到“工程落地”

进入2026年，AI行业的重心已从单纯的模型能力竞赛，转向了模型训练的效率化和商业化落地。亚洲市场，尤其是中国和东南亚，对计算资源的经济性要求极高。

成本优势：GRPO虽然减少了参数量，但其分组和评分机制在实际部署中往往需要更精细的工程优化。而PPO作为经过多年验证的成熟算法，其生态系统（如RLlib、Stable-Baselines3）支持更完善，能更快适应不同规模的训练集群。
开源生态：Open-Reasoner-Zero已完全开源（包含代码、参数设置、训练数据和权重），这直接降低了入局门槛。相比GRPO的少数实践者（如DeepSeek），PPO方案能吸引更多开发者进行二次创新，尤其在金融风控、法律文档分析等需要快速定制推理模型的垂直领域。
算力敏感性：2026年，虽然高端GPU供应趋于稳定，但大模型训练成本依然高昂。使用PPO的极简方案意味着更少的超参数调整和更短的探索周期，这对亚洲中小科技企业尤其有利。

原分析：GRPO是否等于“过度设计”？

从技术根源看，GRPO通过分组基线去除了价值网络，本质上是对PPO中“价值函数近似”的一种简化。然而，这项研究证明，在推理任务场景下，当奖励信号清晰且唯一（如代码是否通过测试、数学答案是否正确）时，PPO的价值网络可以被完全丢弃，而通过GAE的极端参数设置（γ=1, λ=1）实现无偏的长期回报折扣——这恰恰是GRPO试图通过分组达到的目标。

换言之，GRPO的优势主要体现在基线估计的不确定性较高时（例如开放域对话），而在规则明确的推理任务中，PPO的原始设计已经足够。

此外，GRPO的“组内相对评分”引入了额外的采样噪声，可能导致训练初期的不稳定。而PPO+无KL正则化的方案，允许策略更自由地探索，从而在更少的步数内收敛到优势区域。

结论：不要神化算法，回归基础设计

DeepSeek-R1的成功在于其系统性的工程创新，而非GRPO单点技术的威力。2026年的AI从业者应意识到：

任务匹配是核心：对于具有明确客观评价标准的推理任务（数学、代码、逻辑），极简PPO足以胜任。
效率就是竞争力：多关注像Open-Reasoner-Zero这样的开源项目，减少无意义的算法“军备竞赛”。
亚洲市场启示：利用这一发现，可以开发更轻量的推理模型，服务于移动端、低功耗设备等场景，这与2026年全球AI下沉化、绿色化的趋势高度吻合。

未来，强化学习训练的“减负”或将成为一个新方向，而PPO的复兴，可能是这一进程的起点。