机器学习 | 视觉语言模型 (VLM)
视觉语言模型 (Vision Language Model, VLM):能够同时理解文本和图像的多模态大语言模型,输入为图像和文本,输出为文本。
视觉语言模型 (Vision Language Model, VLM):能够同时理解文本和图像的多模态大语言模型,输入为图像和文本,输出为文本。
混合专家模型 (Mixture of Experts, MoE):一种通过将多个“专家”子模型组合起来,通过路由模块动态选择部分专家处理不同输入,从而实现高效扩展参数规模、提升性能并降低计算成本的深度学习方法。
优化器 (Optimizer):机器学习中通过梯度信息调整模型参数以最小化损失的算法。
语言模型对话模板 (Chat Template): 语言模型的对话模板是 Tokenizer 的一部分,用来把问答的对话内容转换为模型的输入提示词,是模型对话能力至关重要的组件。
组相关策略优化 (Group Relative Policy Optimization, GRPO):强化学习中的一种策略优化方法,通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。
简单偏好优化 (Simple Preference optimization, SimPO):大语言模型强化学习中的一种偏好优化方法,其对齐了偏好优化目标中的奖励函数与生成指标,同时解放了参考模型,相比 DPO 更简单、稳定与高效。