论文
登录后可查看剩余解析次数。
标签筛选
基于 transformer 的高效前向预测
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
发表:2021/4/9
大语言模型强化学习训练大语言模型微调基于 transformer 的高效前向预测GPU集群训练管道并行训练
本文提出了一种新的交错流水线并行调度,结合张量、流水线和数据并行方法,有效提高了大规模语言模型在GPU集群上的训练效率。在3072个GPU上可达到502 petaFLOP/s的训练速度,吞吐量提高超过10%。
03
The Devil in Linear Transformer
发表:2022/10/19
Transformer架构长上下文建模稀疏注意力效率提升基于 transformer 的高效前向预测
本文针对线性Transformer在长序列建模中性能下降的两大瓶颈——梯度无界和注意力稀释,提出创新性的NormAttention归一化机制替代传统缩放操作以稳定训练梯度,同时引入早期层对角注意力限制邻近词元关注范围。基于此设计的新模型TransNormer显著提升了收敛稳定性和局部结构捕捉能力,在文本分类、语言建模及长程竞技场基准上均超越标准Transformer及现有线性变体,兼具更优的效率和效果。
04