论文
登录后可查看剩余解析次数。
标签筛选
稀疏注意力机制
Jenga: Enhancing LLM Long-Context Fine-tuning with Contextual Token Sparsity
大语言模型微调长上下文建模稀疏注意力机制
本论文提出了Jenga,一个全新的大型语言模型(LLM)微调系统,通过上下文词元稀疏性优化长上下文应用中的激活值内存使用。Jenga利用三项技术:词元消除、模式预测和核优化,有效减少冗余词元,增强模型运算效率,内存消耗降低至1.93倍,同时实现1.36倍的加速,超越现有微调系统。
04
DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
大语言模型强化学习训练长上下文建模大语言模型推理能力增强稀疏注意力机制
本文介绍了DeepSeekV3.2模型,平衡高计算效率与推理能力,核心技术包括:1. 深度稀疏注意力机制,降低计算复杂性;2. 可扩展强化学习框架,性能媲美GPT5;3. 大规模智能体任务合成流水线,提升泛化能力和指令遵循的鲁棒性。
072
Order-agnostic Identifier for Large Language Model-based Generative Recommendation
发表:2025/2/15
基于大语言模型的生成推荐系统订单无关标识符设计协同过滤与语义信息整合SETRec框架稀疏注意力机制
本文提出了一种基于大语言模型的无序标识符设计,用于生成式推荐,解决了现有标识符在效率和性能上的问题。通过整合协同过滤与语义信息,设计无序标识符并采用SETRec框架,利用稀疏注意力掩码和查询引导生成机制,显著提升了推荐效果和生成效率。
05
FlashVSR: Towards Real-Time Diffusion-Based Streaming Video
Super-Resolution
发表:2025/10/15
扩散模型高效推理视频超分辨率稀疏注意力机制一阶段扩散模型蒸馏大规模视频超分辨率数据集
提出FlashVSR,一种基于扩散模型的实时流式视频超分辨率框架,通过三阶段蒸馏、局部稀疏注意力及轻量条件解码器实现高效超分辨率,在单A100 GPU上以约17FPS处理768×1408分辨率视频,同时构建大规模VSR120K数据集,显著提升速度与超高分辨率泛化能力。
04