首页 » 标签 » DPO

机器学习 | 直接偏好优化 (DPO)

直接偏好优化算法 (Direct Preference optimization, DPO)：大语言模型强化学习中的一种偏好优化方法，其相比 PPO 更简单、稳定与高效。

颢天笔记