机器学习 | 直接偏好优化 (DPO) 时间:2025-01-16 分类:机器学习 暂无评论 直接偏好优化算法 (Direct Preference optimization, DPO):大语言模型强化学习中的一种偏好优化方法,其相比 PPO 更简单、稳定与高效。- 阅读剩余部分 -