AiPaper

论文

登录后可查看剩余解析次数。
标签筛选
Transformer架构
Octo: An Open-Source Generalist Robot Policy
发表:2024/5/21
通用机器人策略多模态动作表示与建模Transformer架构大规模机器人演示数据集机器人动作学习
Octo是首个基于Transformer、在80万条多机器人操作轨迹上预训练的开源通用机器人策略,支持语言指令和目标图像导向。它能快速适配多种传感器和动作空间,实现高效微调,实验证明其在9个平台泛化优越,为通用机器人智能奠定基础。
05
Large Language Diffusion Models
发表:2025/2/14
大语言模型扩散模型自回归扩散模型大语言模型微调Transformer架构概率推断生成方法
本文提出LLaDA,一种基于扩散模型的大型语言模型,通过前向掩码和逆向生成用Transformer预测词元,优化似然下界,实现概率推断。在多任务与上下文学习中表现优异,突破自回归模型限制,展现扩散模型在大规模语言建模中的潜力。
03
The Devil in Linear Transformer
发表:2022/10/19
Transformer架构长上下文建模稀疏注意力效率提升基于 transformer 的高效前向预测
本文针对线性Transformer在长序列建模中性能下降的两大瓶颈——梯度无界和注意力稀释,提出创新性的NormAttention归一化机制替代传统缩放操作以稳定训练梯度,同时引入早期层对角注意力限制邻近词元关注范围。基于此设计的新模型TransNormer显著提升了收敛稳定性和局部结构捕捉能力,在文本分类、语言建模及长程竞技场基准上均超越标准Transformer及现有线性变体,兼具更优的效率和效果。
02