首页 » 分类 » 机器学习

机器学习 | 去噪扩散概率模型 (DDPM)

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPM)：一种通过学习“如何将纯噪声一步步还原成清晰数据”来生成高质量图像、音频或其他内容的深度学习生成模型。

机器学习 | 视觉语言模型 (VLM)

视觉语言模型 (Vision Language Model, VLM)：能够同时理解文本和图像的多模态大语言模型，输入为图像和文本，输出为文本。

混合专家模型 (Mixture of Experts, MoE)：一种通过将多个“专家”子模型组合起来，通过路由模块动态选择部分专家处理不同输入，从而实现高效扩展参数规模、提升性能并降低计算成本的深度学习方法。

优化器 (Optimizer)：机器学习中通过梯度信息调整模型参数以最小化损失的算法。

语言模型对话模板 (Chat Template)：语言模型的对话模板是 Tokenizer 的一部分，用来把问答的对话内容转换为模型的输入提示词，是模型对话能力至关重要的组件。

组相关策略优化 (Group Relative Policy Optimization, GRPO)：强化学习中的一种策略优化方法，通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。