直接偏好优化算法 (Direct Preference optimization, DPO):大语言模型强化学习中的一种偏好优化方法,其相比 PPO 更简单、稳定与高效。

- 阅读剩余部分 -