论文
登录后可查看剩余解析次数。
标签筛选
RWKV架构
ModRWKV: Transformer Multimodality in Linear Time
发表:2025/11/1
ModRWKV多模态框架RWKV架构线性时间Transformer多模态大型语言模型动态可适应异构模态编码器
本研究提出了ModRWKV框架,基于RWKV架构实现多模态处理能力,具有线性时间复杂度,显著优于传统二次方复杂度的Transformer模型。通过动态适应的异构模态编码器,ModRWKV在性能和计算效率间实现了最佳平衡,特别适合多源信息融合应用。
012
RWKV-7 "Goose" with Expressive Dynamic State Evolution
发表:2025/3/19
RWKV架构语言模型性能评估多语言任务开源预训练数据集状态跟踪与语言识别
本文介绍了RWKV7 "Goose",一种具有常数内存使用与推理时间的新型序列建模架构。尽管训练所需词元少,但该29亿参数的语言模型在多语言任务上创造了3B级最先进性能,并在英语任务表现上与现有模型相当。通过引入向量值门控与上下文学习率的广义德尔塔规则,RWKV7实现了状态跟踪与正则语言识别,同时保持训练的并行性,超越了Transformer的能力。
011