论文
登录后可查看剩余解析次数。
标签筛选
Transformer架构
MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers
发表:2024/11/6
Transformer架构高效注意力机制内存查找表计算复杂度减少多头注意力操作
为了降低大型语言模型的计算复杂度,本文提出了一种新颖的Transformer架构MemoryFormer,通过移除大部分全连接层的计算,仅保留多头注意力操作所需的必要计算。利用内存查找表和哈希算法动态检索离散向量,从而显著减少了计算成本,并在多个基准测试中验证了模型的有效性。
03
Scalable Diffusion Models with Transformers
发表:2022/12/20
扩散模型Transformer架构图像生成大规模扩散模型状态-条件图像生成
本研究提出了一种基于变换器架构的新型扩散模型,称为扩散变换器 (DiTs),替代了传统的UNet主干。分析表明,模型的前向传播复杂度(以Gflops衡量)与生成质量表现(FID分数)呈反比。最大模型DiTXL/2在ImageNet基准测试中达到了最先进的FID表现,显示出优越的可扩展性与性能。
05
LoRA: Low-Rank Adaptation of Large Language Models
发表:2021/6/18
大语言模型低秩适配Transformer架构大语言模型微调参数效率优化RoBERTa及衍生模型
论文提出了一种名为LoRA的低秩适配方法,旨在解决大型语言模型的微调问题。该方法通过冻结预训练模型权重并在每层注入可训练的秩分解矩阵,显著减少了需要训练的参数数量,其效果在RoBERTa、DeBERTa、GPT2及GPT3模型上表现优异。
02
Octo: An Open-Source Generalist Robot Policy
发表:2024/5/21
通用机器人策略多模态动作表示与建模Transformer架构大规模机器人演示数据集机器人动作学习
Octo是首个基于Transformer、在80万条多机器人操作轨迹上预训练的开源通用机器人策略,支持语言指令和目标图像导向。它能快速适配多种传感器和动作空间,实现高效微调,实验证明其在9个平台泛化优越,为通用机器人智能奠定基础。
05
Large Language Diffusion Models
发表:2025/2/14
大语言模型扩散模型自回归扩散模型大语言模型微调Transformer架构概率推断生成方法
本文提出LLaDA,一种基于扩散模型的大型语言模型,通过前向掩码和逆向生成用Transformer预测词元,优化似然下界,实现概率推断。在多任务与上下文学习中表现优异,突破自回归模型限制,展现扩散模型在大规模语言建模中的潜力。
05
The Devil in Linear Transformer
发表:2022/10/19
Transformer架构长上下文建模稀疏注意力效率提升基于 transformer 的高效前向预测
本文针对线性Transformer在长序列建模中性能下降的两大瓶颈——梯度无界和注意力稀释,提出创新性的NormAttention归一化机制替代传统缩放操作以稳定训练梯度,同时引入早期层对角注意力限制邻近词元关注范围。基于此设计的新模型TransNormer显著提升了收敛稳定性和局部结构捕捉能力,在文本分类、语言建模及长程竞技场基准上均超越标准Transformer及现有线性变体,兼具更优的效率和效果。
05