机器学习 | 近端策略优化算法 (PPO) 时间:2025-01-14 分类:机器学习 暂无评论 近端策略优化算法 (Proximal policy optimization, PPO):强化学习中的一种策略优化方法,其相比 TRPO 更简单、稳定与高效。- 阅读剩余部分 -