机器学习 | 策略梯度算法

策略梯度算法 (Policy Gradient):强化学习中的一种策略优化方法,它直接根据奖励值对策略参数进行梯度上升,从而最大化奖励的期望。

- 阅读剩余部分 -