首页 » 标签 » PPO

机器学习 | 组相关策略优化 (GRPO)

时间：2025-02-10
分类：机器学习
暂无评论

组相关策略优化 (Group Relative Policy Optimization, GRPO)：强化学习中的一种策略优化方法，通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。

- 阅读剩余部分 -

机器学习 | 近端策略优化 (PPO)

时间：2025-01-14
分类：机器学习
暂无评论

近端策略优化 (Proximal policy optimization, PPO)：强化学习中的一种策略优化方法，其相比 TRPO 更简单、稳定与高效。

- 阅读剩余部分 -