论文
登录后可查看剩余解析次数。
标签筛选
高效生成推理
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models
发表:2023/6/25
大语言模型的 KV 缓存优化重击者算法动态子模问题高效生成推理模型推理性能提升
本文针对大语言模型(LLMs)在生成长文本时显存消耗高的问题,提出了HO,一种新颖的KV缓存驱逐策略。通过识别并保留被称为“重击者”的高贡献词元,HO能将显存占用减少510倍,同时推理吞吐量可提升至29倍,几乎不影响模型精度。
01
Jet-Nemotron: Efficient Language Model with Post Neural Architecture
Search
发表:2025/8/22
Post Neural Architecture Search混合架构语言模型高效生成推理线性注意力机制硬件感知超参数搜索
JetNemotron通过后神经架构搜索冻结预训练全注意力模型中的MLP权重,优化注意力块设计,实现混合架构语言模型。该方法提升生成吞吐量达53.6倍,准确率匹配或超越主流模型,且具备硬件感知调参能力,显著提升大规模语言模型效率。
04