广义知识蒸馏 (Generalized Knowledge Distillation, GKD):是一种让学生模型在自己生成的 On-Policy 序列上,利用教师模型给出的 Token-Level 分布反馈进行蒸馏,从而缓解自回归模型训练与推理分布不一致问题的方法。

- 阅读剩余部分 -