机器学习 | 简单偏好优化 (SimPO)
简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数与生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。
简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数与生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。
直接偏好优化算法 (Direct Preference optimization, DPO):大语言模型强化学习中的一种偏好优化方法,其相比 PPO 更简单、稳定与高效。
近端策略优化算法 (Proximal policy optimization, PPO):强化学习中的一种策略优化方法,其相比 TRPO 更简单、稳定与高效。
策略梯度算法 (Policy Gradient):强化学习中的一种策略优化方法,它直接根据奖励值对策略参数进行梯度上升,从而最大化奖励的期望。
语言模型解码算法:指在语言模型生成过程中,从模型输出的概率分布 (logits) 中,根据一定策略选择并生成下一个词或符号的过程,直至构成完整的句子或文本。
Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。