论文
登录后可查看剩余解析次数。
标签筛选
长上下文建模
Learning to Focus: Causal Attention Distillation via Gradient-Guided
Token Pruning
发表:2025/6/9
因果注意力机制注意力剪枝基于梯度的知识蒸馏大语言模型推理能力增强长上下文建模
本文提出LeaF框架,通过梯度引导的词元剪枝识别并移除训练数据中的混淆词元,消除虚假关联,促使学生模型聚焦于关键上下文,实现因果注意力蒸馏。该方法显著提升了数学推理、代码生成和多跳问答的准确性,增强模型推理的可靠性和可解释性。
06
The Devil in Linear Transformer
发表:2022/10/19
Transformer架构长上下文建模稀疏注意力效率提升基于 transformer 的高效前向预测
本文针对线性Transformer在长序列建模中性能下降的两大瓶颈——梯度无界和注意力稀释,提出创新性的NormAttention归一化机制替代传统缩放操作以稳定训练梯度,同时引入早期层对角注意力限制邻近词元关注范围。基于此设计的新模型TransNormer显著提升了收敛稳定性和局部结构捕捉能力,在文本分类、语言建模及长程竞技场基准上均超越标准Transformer及现有线性变体,兼具更优的效率和效果。
02