近端策略优化算法 (Proximal policy optimization, PPO):强化学习中的一种策略优化方法,其相比 TRPO 更简单、稳定与高效。

- 阅读剩余部分 -