机器学习 | 组相关策略优化 (GRPO)

组相关策略优化 (Group Relative Policy Optimization, GRPO):强化学习中的一种策略优化方法,通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。

- 阅读剩余部分 -

机器学习 | 简单偏好优化 (SimPO)

简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。

- 阅读剩余部分 -

机器学习 | 策略梯度 (PG)

策略梯度算法 (Policy Gradient):强化学习中的一种策略优化方法,它直接根据奖励值对策略参数进行梯度上升,从而最大化奖励的期望。

- 阅读剩余部分 -