机器学习 | Transformer
Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。
Transformer:一种采用注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。
GPT-2 (Generative Pre-trained Transformer 2): 是 OpenAI 发布的 GPT 系列大语言模型的第二代。它采用了纯解码器 (decoder only) 的结构,是一种自回归语言模型。
P*-tuning:一类模型微调方法,微调思想基于 Prompt 技术,不改变模型的主体参数,而是专注于优化一个小型的、任务特定的 Prompt,这个 Prompt 被设计来激活和引导模型生成特定类型的回答。
LoRA (Low-Rank Adaptation):一种模型微调方法,通过在预训练的深度学习模型中添加低秩矩阵,以实现更高效的参数更新和模型自适应。
注意力机制 (Attention):是人工神经网络中一种模仿认知注意力的技术。这种机制可以增强神经网络输入数据中某些部分的权重,同时减弱其他部分的权重,以此将网络的关注点聚焦于数据中最重要的一小部分。数据中哪些部分比其他部分更重要取决于上下文。
残差神经网络 (Residual Neural Network, ResNet): 属于深度学习模型的一种,其核心在于让网络的每一层不直接学习预期输出,而是学习与输入之间的残差关系。