论文

登录后可查看剩余解析次数。
标签筛选
长上下文建模
SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention
发表:2024/6/17
自适应结构稀疏注意力大语言模型推理加速长上下文建模低损失稀疏注意力
大型语言模型支持超长上下文,但传统注意力机制导致显著的时间延迟。本文提出了SampleAttention,一种自适应的近乎无损稀疏注意力方法,通过动态捕获稀疏模式,显著降低了推理延迟,同时保持模型的准确性。评估表明,该方法在TTFT上减少高达2.42倍,几乎不损失准确性。
01
WeiPipe: Weight Pipeline Parallelism for Communication-Effective Long-Context Large Model Training
发表:2025/2/28
长上下文建模大语言模型训练权重管道并行分布式训练优化通信效率提升
长上下文大型模型的训练面临通信开销瓶颈。本文提出了WeiPipe,采用权重流水线并行方法,通过将模型权重划分为流水线阶段并重叠通信与计算,显著降低了通信成本并最大化了训练效率。实验证明,WeiPipe在可扩展性和吞吐量上优于现有方法。
03
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
发表:2025/12/9
大语言模型强化学习训练大语言模型推理能力增强序列策略优化长上下文建模强化学习数学推理
本文研究强化学习(RL)是否真正扩展了语言模型的推理能力,提出一个透明的合成推理框架,分析预训练、中期训练和RL的因果贡献。主要发现包括:RL仅在模型能力边缘时有效提升能力,且仅需1%的预训练种子数据即可实现跨场景迁移,而中期训练显著优于纯RL,并有效降低奖励作弊。
04
Jenga: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity
大语言模型微调长上下文建模稀疏注意力机制
本论文提出了Jenga,一个全新的大型语言模型(LLM)微调系统,通过上下文词元稀疏性优化长上下文应用中的激活值内存使用。Jenga利用三项技术:词元消除、模式预测和核优化,有效减少冗余词元,增强模型运算效率,内存消耗降低至1.93倍,同时实现1.36倍的加速,超越现有微调系统。
04
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
大语言模型强化学习训练长上下文建模大语言模型推理能力增强稀疏注意力机制
本文介绍了DeepSeekV3.2模型,平衡高计算效率与推理能力,核心技术包括:1. 深度稀疏注意力机制,降低计算复杂性;2. 可扩展强化学习框架,性能媲美GPT5;3. 大规模智能体任务合成流水线,提升泛化能力和指令遵循的鲁棒性。
072
Learning to Focus: Causal Attention Distillation via Gradient-Guided Token Pruning
发表:2025/6/9
因果注意力机制注意力剪枝基于梯度的知识蒸馏大语言模型推理能力增强长上下文建模
本文提出LeaF框架,通过梯度引导的词元剪枝识别并移除训练数据中的混淆词元,消除虚假关联,促使学生模型聚焦于关键上下文,实现因果注意力蒸馏。该方法显著提升了数学推理、代码生成和多跳问答的准确性,增强模型推理的可靠性和可解释性。
06
The Devil in Linear Transformer
发表:2022/10/19
Transformer架构长上下文建模稀疏注意力效率提升基于 transformer 的高效前向预测
本文针对线性Transformer在长序列建模中性能下降的两大瓶颈——梯度无界和注意力稀释,提出创新性的NormAttention归一化机制替代传统缩放操作以稳定训练梯度,同时引入早期层对角注意力限制邻近词元关注范围。基于此设计的新模型TransNormer显著提升了收敛稳定性和局部结构捕捉能力,在文本分类、语言建模及长程竞技场基准上均超越标准Transformer及现有线性变体,兼具更优的效率和效果。
05