机器学习 | LLM 并行方法(二)

本部分文章将涉及以下 LLM 并行方法:

  1. 上下文并行 (Context Parallelism, CP):旨在突破超长序列带来的注意力计算与显存平方级增长瓶颈。
  2. 流水线并行 (Pipeline Parallelism, PP):拥有极小的跨机通信开销,是突破单节点显存上限、实现多机大模型训练的核心基石。
  3. 专家并行 (Expert Parallelism, EP):专为混合专家模型 (MoE) 量身定制,实现多专家的负载与算力均衡。

- 阅读剩余部分 -

机器学习 | LLM 并行方法(一)

本部分文章将涉及以下 LLM 并行方法:

  1. 数据并行 (Data Parallelism, DP):将数据切分给不同 GPU,不同 GPU 并行处理不同输入数据。
  2. 张量并行 (Tensor Parallelism, TP):将单个参数矩阵切分到多卡,通过协作完成层内计算。

- 阅读剩余部分 -

机器学习 | 变分自编码器 (VAE)

变分自编码器 (Variational Autoencoder, VAE):一种基于变分推断的深度生成模型,它通过将输入数据映射为潜空间中的连续概率分布,并从中采样解码来重构原始数据,从而学习到数据的潜在特征表示并能够生成全新的样本。

- 阅读剩余部分 -

机器学习 | 去噪扩散概率模型 (DDPM)

去噪扩散概率模型 (Denoising Diffusion Probabilistic Models, DDPM):一种通过学习“如何将纯噪声一步步还原成清晰数据”来生成高质量图像、音频或其他内容的深度学习生成模型。

- 阅读剩余部分 -