论文
登录后可查看剩余解析次数。
标签筛选
高效注意力机制
MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers
发表:2024/11/6
Transformer架构高效注意力机制内存查找表计算复杂度减少多头注意力操作
为了降低大型语言模型的计算复杂度,本文提出了一种新颖的Transformer架构MemoryFormer,通过移除大部分全连接层的计算,仅保留多头注意力操作所需的必要计算。利用内存查找表和哈希算法动态检索离散向量,从而显著减少了计算成本,并在多个基准测试中验证了模型的有效性。
03
STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models
发表:2025/11/24
可扩展的排名模型语义标记化正交旋转变换高维特征稀疏化高效注意力机制
本文提出了一种名为STORE的统一可伸缩排名框架,旨在解决个性化推荐系统中的表示瓶颈和计算瓶颈。通过语义词元化、高效注意力机制和正交旋转变换,STORE有效地处理高基数稀疏特征,提高了模型的可伸缩性与效率。
03
Fast Video Generation with Sliding Tile Attention
发表:2025/2/7
滑动瓦片注意力机制视频扩散生成模型高效注意力机制HunyuanVideo计算效率优化
本研究提出滑动平铺注意力(STA)以解决视频生成中的计算瓶颈。STA通过局部滑动窗口注意力的设计,显著减少了计算冗余,实现了58.79%的模型FLOPs利用率。与现有技术相比,STA在不降低生成质量的前提下,将视频生成延迟降低至501秒,展示了其卓越的效率。
08