杂项 | 基于 Dify 框架实践 RAG 与 Agent

Dify：一款开源的大语言模型 AI 平台，无需代码即可构建自定义的大语言模型应用，同时也可以编写代码实现更加深度的自定义，其核心功能是“检索增强生成”与“大语言模型智能体”。

检索增强生成 (Retrieval Augmented Generation, RAG)：是指对大型语言模型输出进行优化，使其能够在生成响应之前引用训练数据来源之外的权威知识库。

智能体 (Agent)：基于大型语言模型的强大语言理解和生成能力，通过提示词与外界接口使模型具有推理、决策和执行能力，从而解决复杂的实际问题。

机器学习 | 组相关策略优化 (GRPO)

组相关策略优化 (Group Relative Policy Optimization, GRPO)：强化学习中的一种策略优化方法，通过采样求期望节省了 PPO 中的 Value (Critic) 模型。Deepseek-R1 的训练方法。

简单偏好优化 (Simple Preference optimization, SimPO)：大语言模型强化学习中的一种偏好优化方法，其对齐了偏好优化目标中的奖励函数与生成指标，同时解放了参考模型，相比 DPO 更简单、稳定与高效。

直接偏好优化算法 (Direct Preference optimization, DPO)：大语言模型强化学习中的一种偏好优化方法，其相比 PPO 更简单、稳定与高效。

近端策略优化 (Proximal policy optimization, PPO)：强化学习中的一种策略优化方法，其相比 TRPO 更简单、稳定与高效。

策略梯度算法 (Policy Gradient)：强化学习中的一种策略优化方法，它直接根据奖励值对策略参数进行梯度上升，从而最大化奖励的期望。