机器学习 | 简单偏好优化 (SimPO)
简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数与生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。
简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数与生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。