机器学习 | 广义知识蒸馏 (GKD)
广义知识蒸馏 (Generalized Knowledge Distillation, GKD):是一种让学生模型在自己生成的 On-Policy 序列上,利用教师模型给出的 Token-Level 分布反馈进行蒸馏,从而缓解自回归模型训练与推理分布不一致问题的方法。
广义知识蒸馏 (Generalized Knowledge Distillation, GKD):是一种让学生模型在自己生成的 On-Policy 序列上,利用教师模型给出的 Token-Level 分布反馈进行蒸馏,从而缓解自回归模型训练与推理分布不一致问题的方法。
本部分文章将涉及以下 LLM 并行方法:
本部分文章将涉及以下 LLM 并行方法:
集合通信 (Collective Communications):分布式系统或并行计算中,用于在并发执行单元(GPU)间进行数据传输与同步的操作。
变分自编码器 (Variational Autoencoder, VAE):一种基于变分推断的深度生成模型,它通过将输入数据映射为潜空间中的连续概率分布,并从中采样解码来重构原始数据,从而学习到数据的潜在特征表示并能够生成全新的样本。
去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPM):一种通过学习“如何将纯噪声一步步还原成清晰数据”来生成高质量图像、音频或其他内容的深度学习生成模型。