论文
登录后可查看剩余解析次数。
标签筛选
分布式训练优化
WeiPipe: Weight Pipeline Parallelism for Communication-Effective Long-Context Large Model Training
发表:2025/2/28
长上下文建模大语言模型训练权重管道并行分布式训练优化通信效率提升
长上下文大型模型的训练面临通信开销瓶颈。本文提出了WeiPipe,采用权重流水线并行方法,通过将模型权重划分为流水线阶段并重叠通信与计算,显著降低了通信成本并最大化了训练效率。实验证明,WeiPipe在可扩展性和吞吐量上优于现有方法。
03
ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep
Learning
发表:2021/4/16
大规模深度学习模型训练ZeRO-Infinity 系统技术跨级存储层异构计算分布式训练优化超大参数模型微调
ZeROInfinity提出异构系统技术,整合GPU、CPU和NVMe内存,突破GPU内存瓶颈,实现万亿参数级超大模型训练和微调,无需重构模型代码。系统展现出高吞吐量和超线性可扩展性,基于DeepSpeed开源提供,极大提升极限规模深度学习的可及性与效率。
03