机器学习 | 策略梯度算法

策略梯度算法 (Policy Gradient):强化学习中的一种策略优化方法,它直接根据奖励值对策略参数进行梯度上升,从而最大化奖励的期望。

- 阅读剩余部分 -

机器学习 | 语言模型解码算法

语言模型解码算法:指在语言模型生成过程中,从模型输出的概率分布 (logits) 中,根据一定策略选择并生成下一个词或符号的过程,直至构成完整的句子或文本。

- 阅读剩余部分 -

机器学习 | Transformer

Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。

- 阅读剩余部分 -

机器学习 | GPT-2

GPT-2 (Generative Pre-trained Transformer 2): 是 OpenAI 发布的 GPT 系列大语言模型的第二代。它采用了纯解码器 (decoder only) 的结构,是一种自回归语言模型。

- 阅读剩余部分 -