论文状态：已完成

ModRWKV: Transformer Multimodality in Linear Time

发表：2025/11/01

RWKV架构 (2)ModRWKV多模态框架 (1)线性时间Transformer (1)多模态大型语言模型 (1)动态可适应异构模态编码器 (1)

价格：0.100000

已有 12 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本研究提出了ModRWKV框架，基于RWKV架构实现多模态处理能力，具有线性时间复杂度，显著优于传统二次方复杂度的Transformer模型。通过动态适应的异构模态编码器，ModRWKV在性能和计算效率间实现了最佳平衡，特别适合多源信息融合应用。

摘要

Currently, most multimodal studies are based on large language models (LLMs) with quadratic-complexity Transformer architectures. While linear models like RNNs enjoy low inference costs, their application has been largely limited to the text-only modality. This work explores the capabilities of modern RNN architectures in multimodal contexts. We propose ModRWKV—a decoupled multimodal framework built upon the RWKV7 architecture as its LLM backbone—which achieves multi-source information fusion through dynamically adaptable heterogeneous modality encoders. We designed the multimodal modules in ModRWKV with an extremely lightweight architecture and, through extensive experiments, identified a configuration that achieves an optimal balance between performance and computational efficiency. ModRWKV leverages the pretrained weights of the RWKV7 LLM for initialization, which significantly accelerates multimodal training. Comparative experiments with different pretrained checkpoints further demonstrate that such initialization plays a crucial role in enhancing the model’s ability to understand multimodal signals. Supported by extensive experiments, we conclude that modern RNN architectures present a viable alternative to Transformers in the domain of multimodal large language models (MLLMs). Furthermore, we identify the optimal configuration of the ModRWKV architecture through systematic exploration.

思维导图

论文精读

中文精读约 12 分钟读完 · 7,509 字

1. 论文基本信息

1.1. 标题

ModRWKV: Transformer Multimodality in Linear Time （ModRWKV：线性时间复杂度的 Transformer 多模态模型）

1.2. 作者

Jiale Kang, Ziyin Yue, Qingyu Yin, Jiang Rui, Weile Li, Zening Lu, Zhouran Ji

隶属机构: 元石科技 (Yuanshi Inc), 浙江大学 (Zhejiang University), 香港科技大学 (The Hong Kong University of Science and Technology)。
通讯作者: Jiale Kang (jiale@rwkvs.com)

1.3. 发表期刊/会议

EMNLP 2025 (Main)

影响力: EMNLP (Conference on Empirical Methods in Natural Language Processing) 是自然语言处理领域的顶级国际会议之一，具有极高的学术声誉。

1.4. 发表年份

2025年

1.5. 摘要

本文旨在解决当前多模态大语言模型（MLLMs）普遍依赖 Transformer 架构导致推理成本高昂（二次方复杂度）的问题。作者探索了现代循环神经网络（RNN）架构在多模态场景下的能力，提出了 ModRWKV 框架。

核心方法: 基于 RWKV7 架构作为大语言模型主干网络 (Backbone)，设计了一个解耦的多模态框架，通过动态适配的异构模态编码器实现多源信息融合。
创新点: 引入极其轻量级的多模态适配器 (Adapter) 和 1D 卷积序列压缩模块。利用 RWKV7 的预训练权重初始化，显著加速训练。
主要结论: 实验证明，现代 RNN 架构在多模态理解能力上可以作为 Transformer 的有效替代方案，并且在推理效率（线性时间、恒定显存）上具有巨大优势。

1.6. 原文链接

链接: https://aclanthology.org/2025.emnlp-main.204/
PDF: https://aclanthology.org/2025.emnlp-main.204.pdf
状态: 已正式发表。

2. 整体概括

2.1. 研究背景与动机

核心问题: 当前主流的多模态研究主要基于 Transformer 架构的大语言模型（LLMs）。然而，Transformer 的注意力机制（Attention Mechanism）具有 $O(N^2)$ 的二次方计算复杂度和内存消耗，这使得处理长序列（如高分辨率图像、长音频或视频）时的推理成本极其昂贵。
现有挑战: 尽管 RNN 等线性模型（Linear Models）具有推理成本低（ $O(N)$ 时间， $O(1)$ 内存）的优势，但它们的应用长期局限于纯文本领域。在多模态领域，线性模型的表现尚未得到充分验证，且缺乏统一的训练范式。
切入点: 作者假设现代 RNN（特别是 RWKV 系列）不仅能处理文本，结合精心设计的参数共享机制，也能有效捕捉跨模态的依赖关系。

2.2. 核心贡献

框架提出: 提出了 ModRWKV，这是第一个基于 RNN 架构（RWKV7）的统一多模态训练框架。它采用“即插即用”的模态编码器设计，提升了跨模态扩展性。
基准测试: 对 ModRWKV 进行了全面的多模态理解能力评估（涵盖视觉、音频、时间序列），建立了基于 RNN 架构的跨模态性能基准。
效率与性能平衡: 通过大量消融实验，验证了最佳的架构配置（如适配器设计、序列压缩），证明了该模型在保持极低推理成本的同时，性能可与同等规模的 Transformer 模型媲美甚至超越。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文，初学者需要掌握以下概念：

Transformer vs. RNN (复杂度视角):
- Transformer: 计算复杂度随序列长度呈二次方增长（ $N^2$ ）。在推理时，为了生成下一个词，通常需要访问之前所有词的信息（KV Cache），导致显存占用随长度线性增加，计算量巨大。
- RNN (Recurrent Neural Network): 传统的 RNN 处理序列时是一个接一个地更新内部状态。其优势是推理时只需要当前输入和上一时刻的隐藏状态，内存占用是恒定的（ $O(1)$ ），计算时间随长度线性增长（ $O(N)$ ）。
RWKV (Receptance Weighted Key Value):
- 一种现代 RNN 架构。它巧妙地结合了 RNN 的推理效率和 Transformer 的训练并行性。它摒弃了传统 RNN（如 LSTM）中无法并行计算的门控机制，采用了一种特殊的线性注意力形式，使其可以像 Transformer 一样并行训练，又可以像 RNN 一样高效推理。
多模态大语言模型 (MLLM):
- 指不仅能理解文本，还能理解图像、音频等多种数据类型的模型。通常的做法是：模态编码器 (Encoder) 将图片/音频转化为特征向量 $\rightarrow$ 适配器 (Adapter) 将特征映射到文本空间 $\rightarrow$ LLM 进行理解和生成。

3.2. 前人工作与技术演进

Linear Attention & SSMs: 近年来，为了解决 Transformer 的效率问题，出现了许多线性复杂度模型，如 Mamba (State Space Models) 和 Linear Attention Transformers。这些工作主要集中在纯文本任务上。
RWKV 的演进: RWKV 从 v4 到 v6 不断改进。本文基于最新的 RWKV7。相比前代，RWKV7 引入了更强大的状态演化机制（In-context learning rate），提升了表达能力。
多模态融合范式: 现有的 Transformer MLLM（如 LLaVA）通常使用 CLIP 等视觉编码器，通过一个简单的 MLP 投影层连接到 LLM。ModRWKV 沿用了这一成熟范式（Pre-trained Encoder + Adapter + LLM），但将核心的 LLM 替换为了线性的 RWKV7。

4. 方法论

4.1. 方法原理

ModRWKV 的核心思想是解耦与复用。它利用现有的强大单模态编码器（如 SigLIP 处理图像，WavLM 处理音频）提取特征，然后通过一个轻量级的转换层（Adapter），将这些特征“翻译”成 RWKV7 主干网络能够理解的向量序列。由于 RWKV7 本身是线性复杂度的，整个系统在推理时保持了极高的效率。

下图（原文 Figure 5，此处为对应描述）展示了 ModRWKV 的网络架构：多模态数据流（如图像或音频）首先经过编码器处理，随后通过 1D 卷积层进行序列压缩，再经过适配器（Adapter）对齐维度。这些处理后的特征与文本 Embedding 拼接后，一同输入到 RWKV7 主干网络中。

fig 5 该图像是一个示意图，展示了ModRWKV框架中的多模态数据处理流程。该框架通过1D卷积和Mod Encoder对多模态输入进行编码，并结合文本嵌入，以实现信息融合，最终输出RWKV模块。该图描绘了视觉理解、音频识别等任务的组成部分。

4.2. 核心方法详解

4.2.1. RWKV7 主干网络 (The Backbone)

RWKV7 是整个系统的核心大脑。虽然它是一个 RNN，但其状态更新规则比传统 RNN 复杂得多，以增强记忆能力。

传统线性 RNN 的形式: $h_t = Wh_{t-1} + Ux_t \quad (1)$ 这种形式虽然高效，但记忆能力有限。

RWKV 的基础形式 (Time-mixing): RWKV 引入了类似注意力机制的概念，但在时间维度上递归进行。 $s_t = e^{-w_t} \cdot s_{t-1} + k_t v_t^T \quad (2)$

符号解释:
- $s_t$ : 当前时刻的隐藏状态 (State)。
- $s_{t-1}$ : 上一时刻的隐藏状态。
- $w_t$ : 衰减系数 (Decay)，控制遗忘旧信息的速率。
- $k_t$ : 键向量 (Key)，表示当前输入内容的索引特征。
- $v_t$ : 值向量 (Value)，表示当前输入内容的实际信息。
- $k_t v_t^T$ : 这是当前时刻写入记忆的新信息。

RWKV7 的增强更新规则: 为了进一步提升模型根据上下文动态调整学习策略的能力，RWKV7 将上述公式进化为： $s_t = G_t s_{t-1} + a_t k_t v_t^T \quad (3)$

符号解释与深入分析:
- $a_t$ : 上下文学习率 (In-context learning rate)。这是一个向量值，由输入投影而来 ( $a_t = W_a x_t$ )。它动态控制当前时刻的新信息 ( $k_t v_t^T$ ) 有多大程度被写入状态 $s_t$ 。这比传统 RNN 的固定权重更灵活。
- $G_t$ $G_{t}$ : 动态转移矩阵 (Dynamic Transition Matrix)。其计算公式为 $G_t = (I - a_t k_t k_t^T) \mathrm{diag}(e^{-e^{w_t}})$ $G_{t} = (I - a_{t} k_{t} k_{t}^{T}) diag (e^{- e^{w_{t}}})$ 。
  - 这个矩阵极其关键。它不仅包含衰减项 ( $\mathrm{diag}(e^{-e^{w_t}})$ )，还包含了一个正交化项 $(I - a_t k_t k_t^T)$ 。这使得模型在更新状态时，能够“擦除”与当前键 $k_t$ 相似的旧信息，从而为新信息腾出空间（这被称为“宽松的值替换规则”）。
- 这种设计让 RWKV7 拥有了类似 Transformer 的强大的上下文学习能力，同时保持了递归形式的推理效率。

4.2.2. 多模态编码器 (Multimodal Encoder)

ModRWKV 采用“即插即用”的编码器设计：

视觉 (Vision): 比较了 CLIP 和 SigLIP2。SigLIP2 在实验中表现更好。它将图像切分为 Patch 并编码为特征序列。
音频 (Audio): 使用 WavLM 和 Whisper。处理采样率为 16kHz 的音频，输出 50Hz 的特征向量。
时间序列 (Time Series): 使用 WaveNet 和 Timer。

4.2.3. 序列压缩 (Sequence Compression)

多模态数据（如高分辨率图像或长音频）往往会产生非常长的 Token 序列，这会增加计算负担。ModRWKV 引入了一个 1D 卷积层 (1D Convolution) 来压缩序列长度。

$y_c = \sum_{i = 1}^{C_{\mathrm{in}}}\left(\sum_{j = 0}^{k - 1}W_{c,i,j}\cdot {\pmb{x}}_{i,s \cdot t + j}\right) + b_c \quad (5)$

符号解释:
- $x$ : 输入序列，维度为 $C_{\mathrm{in}} \times L$ 。
- $W$ : 卷积核权重。 $k$ 是卷积核大小 (Kernel Size)。
- $s$ : 步长 (Stride)。这是压缩的关键，步长越大，输出序列越短。
- $y_c$ : 输出特征的第 $c$ 个通道。
- $t$ : 输出序列的时间步索引。
作用: 通过设置步长 $s > 1$ ，可以将输入序列长度 $L$ 缩减为 $L' \approx L/s$ ，显著减少后续 LLM 处理的 Token 数量。

4.2.4. 适配器设计 (Adapter Design)

编码器输出的特征维度通常与 RWKV7 主干网络的维度不一致。作者使用了一个简单的 Single-MLP 结构进行投影对齐：

$h = \mathrm{Linear}_2(\mathrm{ReLU}(\mathrm{Linear}_1(\boldsymbol {\mathfrak{x}}))) \quad (4)$

符号解释:
- $\boldsymbol {\mathfrak{x}}$ : 经过压缩后的多模态特征。
- $\mathrm{Linear}_1$ : 第一层线性变换，将特征映射到中间维度（通常是高维）。
- $\mathrm{ReLU}$ : 激活函数，引入非线性。
- $\mathrm{Linear}_2$ : 第二层线性变换，将特征映射到 RWKV7 的输入维度。
设计意图: 作者故意保持 Adapter 极其简单，目的是强迫 RWKV7 主干网络承担主要的跨模态推理任务，从而严格验证 RNN 架构本身的能力。

5. 实验设置

5.1. 数据集

实验覆盖了视觉、音频和时间序列三个领域，使用了多个具有代表性的数据集：

视觉 (Vision):
- LLaVA-665k: 用于视觉指令微调的主要数据集，包含大量图文对和对话数据。
- Benchmarks: VQAv2 (问答), TextVQA (OCR问答), GQA (推理), ScienceQA (科学问答), MMMU (多学科大学水平难题)。
音频 (Audio):
- LibriSpeech: 960小时英语朗读音频。
- Aishell-1: 170小时中文语音数据。
时间序列 (Time Series):
- GIFT-Eval: 包含多个领域的时序预测任务。
- UTSD: 用于增强训练的数据集。

5.2. 评估指标

准确率 (Accuracy): 用于 VQA 等分类任务。
- 定义: 模型预测正确的样本占总样本的比例。
- 公式: $\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$ （简化版：正确数/总数）。
词错误率 (Word Error Rate, WER): 用于评估语音识别（ASR）性能。
- 定义: 将识别出的文本转换为参考文本所需的最小编辑操作（替换、插入、删除）次数，除以参考文本的总词数。
- 公式: $\text{WER} = \frac{S + D + I}{N}$
- 符号解释:
  - $S$ : 替换 (Substitutions) 次数。
  - $D$ : 删除 (Deletions) 次数。
  - $I$ : 插入 (Insertions) 次数。
  - $N$ : 参考文本中的单词总数。
均方误差 (Mean Squared Error, MSE): 用于评估时间序列预测的准确性。
- 定义: 预测值与真实值之间差异的平方的平均值。值越小越好。
- 公式: $\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
- 符号解释:
  - $n$ : 样本数量。
  - $y_i$ : 第 $i$ 个样本的真实值 (Ground Truth)。
  - $\hat{y}_i$ : 第 $i$ 个样本的预测值。

5.3. 对比基线 (Baselines)

LLaVA-1.5 / 1.6: 基于 Transformer (Vicuna/LLaMA) 的主流开源 MLLM，代表了当时的 SOTA (State-of-the-art) 水平。
VL-Mamba: 基于 Mamba (SSM) 架构的多模态模型，用于对比线性模型的性能。
MobileVLM: 针对移动端优化的轻量级模型。
Qwen2.5-VL: 基于 Transformer 的高性能多模态模型，用于对比推理吞吐量。

6. 实验结果与分析

6.1. 核心结果分析：视觉理解能力

实验结果表明，ModRWKV 在参数量更小或相当的情况下，取得了极具竞争力的成绩。

以下是原文 Table 2 的结果，展示了 ModRWKV 与 SOTA 方法在 7 个基准上的对比：

Method	LLM	VQAv2	GQA	SQA1	VQA T	POPE	MMB	MMMU
LLaVA-1.5	Vicuna-7B	78.5	62.0	66.8	58.2	86.5	64.3	-
LLaVA-1.6	Vicuna-7B	81.8	64.2	72.8	65.7	86.7	67.7	35.8
LLaVA-Phi	Phi-2-2.7B	71.4	-	68.4	48.6	85.0	59.8	-
MobileVLM-3B	MobileLLaMA-2.7B	-	59.0	61.2	47.5	84.9	59.6	-
VL-Mamba	Mamba LLM-2.8B	76.6	56.2	65.4	48.9	84.4	57.0	-
ModRWKV	RWKV7 LLM-3B	78.3	60.8	70.9	51.1	87.1	66.6	38.7

分析:

超越同类线性模型: ModRWKV (3B) 在所有指标上全面超越了 VL-Mamba (2.8B)，证明了 RWKV7 架构在多模态融合上的优势。
挑战 Transformer: 尽管 ModRWKV 只有 3B 参数，但在 ScienceQA (SQA1)、POPE 和 MMBench (MMB) 上甚至超过了 7B 参数的 LLaVA-1.5。
MMMU 表现: 在极具挑战性的 MMMU 基准（大学水平多学科任务）上，ModRWKV 取得了 38.7 的分数，展示了强大的泛化能力。

6.2. 效率分析：线性复杂度优势

下图（原文 Figure 4）直观地展示了 ModRWKV 的核心优势。

fig 4 该图像是比较不同模型在处理不同数量的 tokens 时的得分和推理时间的折线图。左侧图表展示了 VQAV2、GQA、SQA' 和 VQA7 的得分变化，右侧图表则反映了推理时间与 tokens 数量之间的关系。

左图 (Performance): 展示了不同 tokens 数量下的性能变化。 右图 (Inference Time): 展示了推理时间随 tokens 数量的变化。

分析: 随着输入序列（Tokens）长度的增加，Transformer 模型（如 Qwen2.5）的推理耗时呈指数级上升（曲线陡峭），而 ModRWKV 的耗时几乎保持恒定或线性微增（曲线平缓）。这验证了标题中的“Linear Time”（线性时间）。

原文 Table 10 提供了具体数据：
在 64k 长度时，Qwen2.5-3B 的吞吐量降至 1826 tokens/s。
同等条件下，RWKV7-2.9B 依然保持 12010 tokens/s，快了近 6.5倍，且吞吐量几乎不随长度衰减。

6.3. 消融实验：编码器与参数

作者在 Table 6 中对比了 CLIP 和 SigLIP2 两种视觉编码器：

结果: 尽管 SigLIP2 (90M 参数) 只有 CLIP (300M+ 参数) 大小的 30%，但 SigLIP2 在 VQAv2 等任务上全面领先。
启示: 视觉特征的质量比单纯的模型大小更重要。

在 Table 5 中，作者探索了 Adapter 的缩放因子（Scaling Factor）：
结果: 将中间层维度设为输入维度的 $4\times$ 时，时间序列预测的 MSE 误差最小。 $2\times$ 欠拟合， $8\times$ 则出现过拟合或不稳定。

7. 总结与思考

7.1. 结论总结

本文成功证明了现代 RNN (RWKV7) 是构建多模态大语言模型的可行且高效的基石。

性能: ModRWKV 在多个视觉、音频和时序基准上达到了与 Transformer 模型（LLaVA, Qwen-VL）相当的性能。
效率: 验证了 RNN 架构在处理长序列多模态数据时的巨大优势——推理速度快、显存占用低、吞吐量恒定。
通用性: 提出的统一框架证明了 RNN 不仅限于文本，能够很好地融合和理解跨模态信号。

7.2. 局限性与未来工作

局限性: 文章目前只探索了“文本+X”的双模态任务，尚未尝试更复杂的“文本+图像+音频”三模态同时融合的场景。
未来工作: 作者计划进一步探索更丰富的多模态融合设置，处理更复杂的现实世界任务。

7.3. 个人启发与批判

启发: 这篇论文打破了“只有 Transformer 才能做多模态”的刻板印象。对于边缘计算设备（如手机、机器人）来说，ModRWKV 这种线性复杂度的模型具有巨大的应用潜力，因为它不需要昂贵的显存来存储 KV Cache。
思考: 论文中提到的 Sequence Compression (1D Conv) 是一个非常实用但常被忽视的技巧。在处理视频等多帧输入时，这种简单的压缩可能会成为提升效率的关键。
潜在问题: 虽然 SigLIP2 表现更好，但 RNN 架构在处理图像这种本质上是 2D 的数据时，是否真的能完全捕捉空间关系（相比于 Vision Transformer 的全局注意力），仍值得在更细粒度的视觉任务（如分割、检测）中进一步验证。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。