RWKV-7 "Goose" with Expressive Dynamic State Evolution
TL;DR 精炼摘要
本文介绍了RWKV-7 "Goose",一种具有常数内存使用与推理时间的新型序列建模架构。尽管训练所需词元少,但该29亿参数的语言模型在多语言任务上创造了3B级最先进性能,并在英语任务表现上与现有模型相当。通过引入向量值门控与上下文学习率的广义德尔塔规则,RWKV-7实现了状态跟踪与正则语言识别,同时保持训练的并行性,超越了Transformer的能力。
摘要
We present RWKV-7 "Goose", a new sequence modeling architecture with constant memory usage and constant inference time per token. Despite being trained on dramatically fewer tokens than other top models, our 2.9 billion parameter language model achieves a new 3B SoTA on multilingual tasks and matches the current 3B SoTA on English language downstream performance. RWKV-7 introduces a newly generalized formulation of the delta rule with vector-valued gating and in-context learning rates, as well as a relaxed value replacement rule. We show that RWKV-7 can perform state tracking and recognize all regular languages, while retaining parallelizability of training. This exceeds the capabilities of Transformers under standard complexity conjectures, which are limited to . To demonstrate RWKV-7's language modeling capability, we also present an extended open source 3.1 trillion token multilingual corpus, and train four RWKV-7 models ranging from 0.19 billion to 2.9 billion parameters on this dataset. To foster openness, reproduction, and adoption, we release our models and dataset component listing at https://huggingface.co/RWKV, and our training and inference code at https://github.com/RWKV/RWKV-LM all under the Apache 2.0 License.
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
RWKV-7 "Goose" with Expressive Dynamic State Evolution (RWKV-7 "Goose":具有强表达力的动态状态演化模型)
1.2. 作者
Bo Peng (RWKV Project), Ruichong Zhang (Tsinghua University), Daniel Goldstein (EleutherAI, Recursal AI), Eric Alcaide, 等。 (该论文由 RWKV Project 团队主导,联合 EleutherAI 及多所高校的研究人员共同完成。)
1.3. 发表期刊/会议
arXiv Preprint (发布于 2025 年 3 月)
1.4. 发表年份
2025
1.5. 摘要
本文提出了 RWKV-7 "Goose",这是一种新的序列建模架构,具有恒定的内存占用和恒定的每词元(token)推理时间。尽管训练使用的 token 数量远少于其他顶级模型,但其 29 亿参数的语言模型在多语言任务上达到了新的 3B 参数级别 最先进水平 (SoTA),并在英语下游任务中与当前的 3B SoTA 模型持平。RWKV-7 引入了一种新颖的 广义 Delta 规则 (Generalized Delta Rule),包含向量门控(vector-valued gating)和 上下文学习率 (in-context learning rates),以及一种松弛的值替换规则。作者从理论上证明了 RWKV-7 能够执行状态追踪并识别所有 正则语言 (Regular Languages),同时保留了训练的并行性。这超越了 Transformer 在标准复杂性猜想下的能力(Transformer 被限制在 复杂性类)。为了展示 RWKV-7 的语言建模能力,作者还发布了一个扩展的开源 3.1 万亿 token 多语言语料库 RWKV World v3,并在此数据集上训练了四个参数量从 0.19B 到 2.9B 的模型。所有模型和代码均在 Apache 2.0 许可下开源。
1.6. 原文链接
https://arxiv.org/abs/2503.14456 (Preprint)
2. 整体概括
2.1. 研究背景与动机
- 核心问题: 当前主流的 Transformer 架构凭借 自注意力机制 (Self-Attention) 在序列建模中占据主导地位,但其计算复杂度和内存占用随序列长度呈二次方增长 ()。这使得处理长序列时的推理成本极高。
- 现有挑战: 为了解决效率问题,线性注意力 (Linear Attention) 和 循环神经网络 (RNN) 变体(如 RWKV-4/5/6, Mamba)被提出,它们实现了 的计算复杂度和恒定内存。然而,早期线性注意力模型在 状态演化 (State Evolution) 方面存在局限性:它们通常只能通过简单的数值累加和固定的衰减来更新状态,难以精确地从状态中“移除”特定信息或执行复杂的状态追踪任务。
- 创新思路: 本文旨在结合 Transformer 的并行训练优势和 RNN 的高效推理优势,同时通过增强状态更新机制的表达能力(使其超越传统的对角衰减),解决线性模型在复杂状态追踪上的理论短板。
2.2. 核心贡献/主要发现
- 架构创新 (RWKV-7 "Goose"): 提出了一种基于 广义 Delta 规则 的新架构。
- 引入 向量化上下文学习率 (Vector-valued In-context Learning Rate),允许模型对状态的每个通道进行选择性更新。
- 解耦键 (Decoupled Keys): 将用于“移除旧信息”的键 () 和用于“写入新信息”的键 () 分离,提高了灵活性。
- 引入 向量化状态门控 (Vector-valued State Gating),增强表达力并提供隐式位置编码。
- 理论突破: 证明了 RWKV-7 能够识别所有 正则语言 (Regular Languages) 并解决 状态追踪 (State Tracking) 问题。这表明其表达能力在标准复杂性猜想下超越了仅限于 复杂性类的 Transformer。
- 高性能与高效率: 2.9B 参数的模型在训练数据显著少于竞品(如 Qwen2.5)的情况下,在多语言任务上实现了 SoTA,在英语任务上表现相当,且推理成本更低。
- 开源贡献: 发布了 3.1 万亿 token 的 RWKV World v3 数据集以及一系列预训练模型。
3. 预备知识与相关工作
3.1. 基础概念
为了理解 RWKV-7,初学者需要掌握以下概念:
- 线性注意力 (Linear Attention) 与 RNN:
- 标准 Attention 计算为 ,复杂度为 。
- 线性注意力去除了 softmax 或将其线性化,使得计算顺序可以变为 。 可以被视为一个固定大小的 状态 (State)。这使得模型可以像 RNN 一样,在每一步仅根据当前输入更新这个状态,从而实现 的推理内存和时间。
- Delta 规则 (Delta Rule):
- 源自传统的 Widrow-Hoff 学习规则。在神经网络语境下(如 DeltaNet),它将状态更新视为一个在线学习过程。
- 传统线性注意力不仅累加新信息,还会导致状态数值无限膨胀。Delta 规则通过 的形式,尝试在写入新值 之前,先从状态中“减去”与当前 相关的旧值。这是一种更精细的“遗忘-更新”机制。
- 与 复杂性类:
- 这是理论计算机科学中衡量计算模型能力的指标。
- : 指的是可以由常数深度、多项式大小的带有多数表决门(Majority Gates)的电路解决的问题集合。研究表明 Transformer 属于此类,这意味着它们难以解决某些需要深层串行推理的问题(如复杂的奇偶校验或状态机模拟)。
- : 指的是对数深度电路解决的问题集合,包含更复杂的串行依赖问题(如某些群乘法问题)。本文证明 RWKV-7 能解决属于 的问题,证明了其理论上限高于 Transformer。
3.2. 前人工作与技术演进
- RWKV-4: 引入了向量值的衰减(decay) 来替代位置编码,状态更新公式为 。这是一种简单的指数衰减累加。
- RWKV-5/6: 引入了矩阵值状态(Matrix-valued states)和数据依赖的衰减 。RWKV-6 尤其引入了更复杂的 Token Shift 和依赖数据的衰减,提高了性能。
- DeltaNet / Mamba: DeltaNet 首次将 Delta 规则应用于线性 Transformer。Mamba 使用选择性状态空间模型(SSM),通过输入依赖的参数控制信息流。
- RWKV-7 的演进: RWKV-7 继承了 RWKV-6 的架构框架,但核心创新在于将 Delta 规则泛化。它不再使用简单的衰减或标量更新率,而是允许通过向量化的学习率和解耦的键来执行复杂的、非对角的(近似)状态更新,从而大幅提升表达力。
4. 方法论
4.1. 方法原理
RWKV-7 的核心思想是将序列建模中的状态更新看作是一个动态的、数据驱动的 在线学习 (Online Learning) 过程。模型在推理过程中,根据当前的输入动态地调整其“内部记忆”(即 WKV 状态)。这种调整不仅仅是简单的“写入”,还包含了精确的“擦除”和“保留”,其机制通过一种 广义 Delta 规则 来实现。
4.2. 核心方法详解:RWKV-7 架构与时间混合 (Time Mixing)
RWKV-7 的整体架构包含层叠的残差块,每个块由 时间混合 (Time Mixing) 和 MLP (多层感知机) 组成。
下图(原文 Figure 1)展示了 RWKV-7 的整体架构:
Figure 1 presents the overall architecture of RWKV-7. Please refer to Appendix F for more details. Figure 1: RWKV-7's overall architecture.
4.2.1. 权重准备 (Weight Preparation)
在进行核心的状态更新之前,模型首先需要从输入向量 中生成各种控制信号(如键、值、衰减率等)。RWKV-7 使用了一种参数高效的方法:低秩 MLP (Low-rank MLP, loramlp) 和 Token Shift (lerp)。
-
Token Shift: 将当前时刻的输入与上一时刻的输入进行线性插值,混合时间信息。公式如下: 这里 是可学习的混合系数。
-
生成控制向量: 利用
loramlp(两层小维度的 MLP)从 生成以下关键向量。以下公式中的箭头 () 表示输出变量:关键符号解释:
- : 移除键倍增器 (removal key multiplier)。它将原始键 转换为专门用于从状态中“移除”信息的键 。这实现了移除与写入的解耦。
- : 替换率增强器 (replacement rate booster)。它允许模型控制写入状态的新信息的幅度。
- : 上下文学习率。一个向量,控制在当前时间步,状态的每个通道应该被更新多少(类似于梯度下降中的学习率)。
- : 衰减率。控制历史信息的遗忘速度。RWKV-7 使用向量化的衰减,比标量衰减更具表现力。
4.2.2. 加权键值状态演化 (The Weighted Key Value State Evolution)
这是 RWKV-7 的灵魂所在。模型维护一个矩阵值状态 (在代码中为了效率通常是转置存储的)。
下图(原文 Figure 2)直观展示了这一更新机制:
Figure 2: A simple illustration of the update mechanism of a single head of RwKV-7's state. Note that the actual state size is per head, not .
状态更新公式 (核心):
公式深度解析:
- : 上一时刻的状态。
- : 衰减项。 首先对旧状态进行逐通道的指数衰减。
- : 擦除项 (Erasure Term)。
- 是归一化的移除键。
- 这一项构造了一个近似的“正交投影”或“遗忘门”。它基于当前的输入,计算出一个矩阵,从状态中减去与当前关注点不相关或冲突的旧信息。
- 控制擦除的强度。
- 这部分使得 RWKV-7 的状态转换矩阵 成为一个非对角、输入依赖的矩阵,这是其超越传统 RNN 表达能力的关键。
- : 写入项 (Addition Term)。
- 将新的键值对信息( 和 的外积)加到状态中。
- 注意这里使用的是替换键 ,它与移除键 是解耦的,允许模型在同一位置写入与擦除不同的特征方向。
4.2.3. 输出计算 (WKV Bonus and Output)
状态更新后,模型根据当前的查询(接收度 )从状态中提取信息。RWKV-7 引入了一个 Bonus 机制,直接关注当前的输入,以弥补状态可能来不及包含当前 token 信息的微小滞后。
- Bonus (): 是一个可学习参数。这一项相当于一个局部的、瞬时的注意力连接,确保模型不会因为过度压缩历史而忽略当前最鲜活的输入信号。
- LayerNorm: 对从状态中取回的信息进行归一化,这对于深层网络的数值稳定性至关重要。
4.3. MLP 模块
RWKV-7 的 MLP 模块(以前称为 Channel Mixing)也进行了简化。去除了原来的门控矩阵 ,改为一个标准的 2 层 MLP,但隐藏层维度增加到模型维度的 4 倍,并使用平方 ReLU 激活函数。
5. 实验设置
5.1. 数据集
RWKV-7 使用了新构建的 RWKV World v3 数据集,总计约 3.119 万亿 (3.119 Trillion) token。
- 来源: 数据集综合了多个公开数据源,包括:
- Web (网页): SlimPajama, FineWeb, CCNews 等。
- Code (代码): StarCoder, GitHub repositories.
- Math (数学): OpenWebMath, Algebraic-Stack.
- Multilingual (多语言): 包含多种语言的数据,增强了跨语言能力。
- Academic/Books: ArXiv, Books3 等。
- 特点: 该数据集特别针对英语、代码和多语言任务进行了优化,并包含了特定领域的增强(如中国小说)。
- 训练策略: 由于计算资源限制,部分模型是从 RWKV-5/6 的检查点(Checkpoint)继续训练(Upcycled)而来的,而非全部从头训练。
5.2. 评估指标
- 困惑度 (Perplexity, PPL):
- 定义: 衡量概率模型预测样本的好坏程度。对于语言模型,它反映了模型对下一个词预测的不确定性。值越低越好。
- 公式:
- 符号: 是测试文本序列, 是序列长度, 是模型预测第 个词的概率。
- 准确率 (Accuracy, Acc):
- 定义: 在多项选择任务(如 MMLU, SciQ)中,模型预测正确选项的比例。
- 压缩率 (Compression Rate):
- 定义: 用于评估模型对“近期互联网数据”的泛化能力。指原始数据大小与模型压缩该数据后大小的比率(通常以比特/字节为单位)。在本文中,可能指模型对测试文本的平均对数似然(以 bit 为单位)与原始文本大小的比值。
- Pass-Key Retrieval Accuracy:
- 定义: 衡量长上下文能力的指标。在长文本中随机插入一个“密钥”(Pass-Key),询问模型该密钥是什么,计算回答正确的比例。
5.3. 对比基线
- Transformers: Qwen2.5 (0.5B, 1.5B, 3B), Llama-3.2 (1B, 3B), SmolLM2。这些是当前最强的开源 Transformer 小模型。
- RNNs / Linear Attentions: RWKV-5, RWKV-6, Mamba-2, HGRN-2, TTT。用于对比不同线性架构的性能。
6. 实验结果与分析
6.1. 核心结果分析:基准测试性能
RWKV-7 在参数量更小、训练数据更少的情况下,展现出了惊人的竞争力。
以下是原文 Table 3 的结果,展示了英语基准测试性能:
| Model (Name) | Tokens (T) | lmb.o acc↑ | hella acc_n↑ | piqa acc↑ | arcE acc↑ | arcC acc↑ | glue aacc | WG acc↑ | sciq acc↑ | mmlu acc↑ | avg acc↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| RWKV5-World1-0.1B | 0.6 | 38.4 | 31.9 | 61.4 | 44.2 | 19.9 | 45.5 | 52.9 | 76.3 | 23.1 | 43.7 |
| SmolLM2-135M | 2.0 | 42.9 | 43.1 | 68.4 | 64.4 | 28.1 | 49.0 | 53.0 | 84.0 | 25.8 | 51.0 |
| RWKV7-World2.8-0.1B | 1.6 | 48.1 | 42.1 | 67.3 | 59.3 | 25.5 | 48.1 | 52.7 | 86.3 | 25.4 | 50.5 |
| RWKV5-World2-0.4B | 1.1 | 54.0 | 40.9 | 66.5 | 54.0 | 24.0 | 50.0 | 53.2 | 86.9 | 23.8 | 50.4 |
| SmolLM2-360M | 4.0 | 53.8 | 56.4 | 72.1 | 70.4 | 36.5 | 50.7 | 59.0 | 91.2 | 26.3 | 57.4 |
| Qwen2.5-0.5B | 18.0 | 52.5 | 52.1 | 70.2 | 64.6 | 29.5 | 54.7 | 56.4 | 93.1 | 47.8 | 57.9 |
| RWKV7-World2.9-0.4B | 3.1 | 58.6 | 56.8 | 72.9 | 68.7 | 31.9 | 49.4 | 59.9 | 89.7 | 26.1 | 57.1 |
| RWKV6-World2.1-1.6B | 2.5 | 67.4 | 61.1 | 74.4 | 64.3 | 31.0 | 51.0 | 60.7 | 89.5 | 25.1 | 58.3 |
| Llama3.2-1B | 15.0 | 63.0 | 63.7 | 74.5 | 65.5 | 31.3 | 49.7 | 60.7 | 91.4 | 32.1 | 59.1 |
| SmolLM2-1.7B | 11.0 | 67.7 | 71.5 | 77.0 | 77.7 | 44.7 | 51.5 | 66.1 | 93.3 | 50.3 | 66.6 |
| Qwen2.5-1.5B | 18.0 | 63.0 | 67.7 | 75.8 | 75.5 | 41.2 | 65.0 | 63.4 | 94.2 | 61.0 | 67.4 |
| RWKV7-World3-1.5B | 5.6 | 69.5 | 70.8 | 77.1 | 78.1 | 44.5 | 62.4 | 68.2 | 94.3 | 43.3 | 67.6 |
| RWKV6-World2.1-3B | 2.5 | 71.7 | 68.4 | 76.4 | 71.2 | 35.6 | 56.3 | 66.3 | 92.2 | 28.3 | 62.9 |
| Llama3.2-3B | 15.0 | 70.5 | 73.6 | 76.7 | 74.5 | 42.2 | 50.7 | 69.9 | 95.7 | 56.5 | 67.8 |
| Qwen2.5-3B | 18.0 | 67.1 | 73.5 | 78.6 | 77.4 | 45.0 | 70.2 | 68.5 | 96.2 | 65.7 | 71.4 |
| RWKV7-World3-2.9B | 5.6 | 73.4 | 76.4 | 79.7 | 81.0 | 48.7 | 61.8 | 72.8 | 95.0 | 55.0 | 71.5 |
分析:
-
越级挑战: RWKV-7 2.9B (训练了 5.6T tokens) 在平均得分上 (71.5) 击败了 Qwen2.5-3B (71.4),尽管后者使用了 3倍以上的训练数据 (18T tokens)。
-
MMLU 飞跃: 相比 RWKV-6,RWKV-7 在 MMLU(多任务语言理解)上的得分有显著提升(例如 3B 模型从 28.3 提升到 55.0),这证明了其复杂推理能力的增强。
下图(原文 Figure 3)直观展示了 RWKV-7 在多语言基准上的性能与 FLOPs(计算量)的关系:
Figure 3: Model Comparisons across Multilingual Benchmarks
可以看到,RWKV-7 的曲线位于左上角,意味着它能以更少的计算量达到更高的准确率,表现出极佳的 帕累托前沿 (Pareto Frontier)。
6.2. 状态追踪与表达力 (State Tracking & Expressivity)
这是验证 RWKV-7 理论突破的关键实验。实验让模型追踪群乘法(Group Multiplication)的结果。
下图(原文 Figure 8)展示了实验结果:

分析:
- Transformer & Mamba: 随着序列长度增加,它们需要的层数线性增加,或者根本无法解决复杂群(如 , )的追踪问题。这验证了它们在 的理论限制。
- RWKV-7: 仅需 常数级 (Constant) 的层数(在图中是一条平线)即可解决这些问题,且不受序列长度影响。这强有力地证明了 RWKV-7 具有 状态追踪 (State Tracking) 能力,其表达力超越了 。
6.3. 速度与内存
下图(原文 Figure 9)对比了不同序列长度下的训练时间:

分析:
- 线性扩展: RWKV-7 的耗时随序列长度呈线性增长,而 Flash Attention v3 呈二次方增长。
- 交叉点: 在序列长度超过 4k-8k 后,RWKV-7 的速度优势开始显现,且序列越长优势越明显。
- 内存: RWKV-7 保持恒定的推理内存占用。
7. 总结与思考
7.1. 结论总结
RWKV-7 "Goose" 代表了 RNN 在大语言模型时代的一次重大飞跃。通过引入 广义 Delta 规则,它不仅在理论上突破了 Transformer 的表达力瓶颈(超越 ),而且在工程实践中证明了 RNN 可以在极大规模(3B 参数,3T token)下与最先进的 Transformer 模型(如 Qwen2.5)一较高下,同时保持了 RNN 标志性的 推理优势。
7.2. 局限性与未来工作
- 数值精度敏感: RWKV-7 对数值精度非常敏感,特别是在状态更新算子中。这要求在实现时必须小心处理浮点数精度(如必须使用 float32 进行某些累加),可能会影响量化部署。
- 提示词敏感: 研究发现 RWKV-7 对特殊的起始 token 非常敏感。如果不加这个 token,性能会显著下降。这表明其初始状态的设置非常关键。
- 缺乏指令微调: 目前发布的仅是预训练基座模型(Base Model),缺乏经过 SFT 和 RLHF 的指令跟随版本。
- 未来方向: 探索更大规模的模型训练、结合思维链(Chain-of-Thought)以利用其状态追踪能力进行深层推理、以及优化算子速度。
7.3. 个人启发与批判
- 启发: RWKV-7 的成功表明,Transformer 并非序列建模的唯一解。通过赋予 RNN 更灵活的状态更新机制(不仅仅是衰减,而是精确的“擦除+写入”),RNN 可以获得与 Attention 匹敌的上下文学习能力。这为“后 Transformer 时代”的高效架构指明了一个方向。
- 批判: 尽管在“状态追踪”等合成任务上表现优异,但 RWKV-7 在极长上下文(如 >100k tokens)下的“大海捞针”能力是否能像 Transformer 那样鲁棒(Transformer 可以通过 RoPE 外推较好地处理),仍需更多真实场景的验证。此外,其训练虽然并行,但涉及复杂的递归公式,对数值稳定性的要求可能使其训练难度高于 Transformer。
相似论文推荐
基于向量语义检索推荐的相关论文。