组相关策略优化 (Group Relative Policy Optimization, GRPO)：强化学习中的一种策略优化方法，通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。

DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

1 回顾 PPO

在 PPO 中，我们需要四个模型：

Policy (Actor) Model
Value (Critic) Model
Reference Model
Reward Model

其中，参数更新的是 Policy 和 Value 模型，Reference 和 Reward 的参数是不训练的。另外，通常这 4 个模型都是相同参数规模的，也就是说我们需要目标模型四倍大小的显存来进行训练，显存和算力消耗很大。

为了降低开销，涌现出了不少策略优化算法，针对的就是怎么省去这四个模型中的其中一个模型。例如之前的笔记中，DPO 省掉了 Value 模型同时是 Off-Policy 算法，SimPO 省掉了 Value 和 Reference 模型。

而本篇笔记分享的 GRPO 方法，就是通过采样求期望节省了 PPO 中的 Value 模型，只需要加载三个模型。

2 GRPO 的差异点

要省掉 PPO 中的 Value 模型，首先得看看这个模型做了什么，有什么方法去近似它所做的工作。Value 模型的作用是评估当前 Policy 在特定 State 情况下，可以得到的 Reward 的期望值。最终基于 Value 模型给出的值，让奖励值更稳定，方差减小，从而让 RL 训练更稳定。

看到这个期望值，我们容易想到，期望可以用采样求均值的方法来近似。采样 Policy 这个过程不需要引入额外的模型，因此通过采样求均值是可以省掉 Value 模型的。这便是 GRPO 朴素简单的思想。

接下来，根据上图对比一下 PPO 和 GRPO 的差异。

首先最明显的就是上文说过的省去了 Value 模型，可以看到 GRPO 一次采样了 $G$ 个输出 $o_{1}, o_{2}, \dots, o_{G}$ . 对于这 $G$ 个输出，通过 Reward 模型获得每个输出的奖励值 $r_{1}, r_{2}, \dots, r_{G}$ . 然后通过计算这 $G$ 个采样的均值和方差，获得最终的优势值 $A_{1}, A_{2}, \dots, A_{G}$ . 然后基于优势值来指导模型更新。

除此之外，还能注意到， $KL$ 惩罚的施加位置不同。PPO 的 $KL$ 惩罚是逐 Token 计算的，而 GRPO 的 $KL$ 惩罚是直接拿 Policy 和 Reference 算出来施加到最终奖励值的。

3 GRPO 的细节

GRPO 的目标函数是：

$\begin{aligned} max_{θ} E [(s_{t}, a_{t}) \sim π_{θ^{'}}, {o_{i}}_{i = 1}^{G} \sim π^{'} (a_{t} | s_{t})] \\ \frac{1}{G} \sum_{i = 1}^{G} [min (\frac{p_{θ} (a_{t} ∣ s_{t})}{p_{θ^{'}} (a_{t} ∣ s_{t})} A_{i}, clip (\frac{p_{θ} (a_{t} ∣ s_{t})}{p_{θ^{'}} (a_{t} ∣ s_{t})}, 1 - ϵ, 1 + ϵ) A_{i}) - β D_{K L} (π_{θ} ‖ π_{ref})] \end{aligned}$

其中：

$\begin{aligned} D_{K L} (π_{θ} ‖ π_{ref}) & = \frac{π_{ref} (a_{t} ∣ s_{t})}{π_{θ} (a_{t} ∣ s_{t})} - \log \frac{π_{ref} (a_{t} ∣ s_{t})}{π_{θ} (a_{t} ∣ s_{t})} - 1 \\ A_{i} & = \tilde{r_{i}} = \frac{r_{i} - mean ({r_{1}, r_{2}, \dots, r_{G}})}{std ({r_{1}, r_{2}, \dots, r_{G}})} \end{aligned}$

可以看到，GRPO 的目标函数和 PPO 的结构几乎一致，重要区别就是 $A_{i}$ 的计算方式是将 $G$ 个采样的奖励值 ${r_{1}, r_{2}, \dots, r_{G}}$ 归一化。

另外，还需要注意 GRPO 估计 $KL$ 惩罚时，使用了一种无偏的蒙特卡洛方法：http://joschu.net/blog/kl-approx.html

文章目录

机器学习 | 组相关策略优化 (GRPO)

1 回顾 PPO

2 GRPO 的差异点

3 GRPO 的细节

添加新评论

最新文章

分类

标签

其它