论文状态:已完成

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

发表:2025/08/27
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 3 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文提出了MemoryVLA,一个基于感知-认知记忆的视觉-语言-行动框架,以应对机器人操控中的长时序非马尔可夫性。该方法结合工作记忆和海马体支持的情景记忆,通过感知和认知词元形成记忆库,显著提高了多种仿真及真实任务中的表现,提升成功率达26%。

摘要

Temporal context is essential for robotic manipulation because such tasks are inherently non-Markovian, yet mainstream VLA models typically overlook it and struggle with long-horizon, temporally dependent tasks. Cognitive science suggests that humans rely on working memory to buffer short-lived representations for immediate control, while the hippocampal system preserves verbatim episodic details and semantic gist of past experience for long-term memory. Inspired by these mechanisms, we propose MemoryVLA, a Cognition-Memory-Action framework for long-horizon robotic manipulation. A pretrained VLM encodes the observation into perceptual and cognitive tokens that form working memory, while a Perceptual-Cognitive Memory Bank stores low-level details and high-level semantics consolidated from it. Working memory retrieves decision-relevant entries from the bank, adaptively fuses them with current tokens, and updates the bank by merging redundancies. Using these tokens, a memory-conditioned diffusion action expert yields temporally aware action sequences. We evaluate MemoryVLA on 150+ simulation and real-world tasks across three robots. On SimplerEnv-Bridge, Fractal, and LIBERO-5 suites, it achieves 71.9%, 72.7%, and 96.5% success rates, respectively, all outperforming state-of-the-art baselines CogACT and pi-0, with a notable +14.6 gain on Bridge. On 12 real-world tasks spanning general skills and long-horizon temporal dependencies, MemoryVLA achieves 84.0% success rate, with long-horizon tasks showing a +26 improvement over state-of-the-art baseline. Project Page: https://shihao1895.github.io/MemoryVLA

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation(中文:基于感知-认知记忆的视觉-语言-行动模型,用于机器人操控)

1.2. 作者

  • Hao Shi, Bin Xie, Yingfei Liu, Lin Sun(†),Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, Gao Huang
  • 机构背景:
    • 清华大学自动化系、BNRist(多位第一作者与通讯作者)
    • Dexmal(多位合作作者,†为在 Dexmal 实习期间完成工作)
    • MEGVII(旷视科技)
    • 天津大学
    • 哈尔滨工业大学
    • StepFun
  • 联系邮箱:shi-h23@mails.tsinghua.edu.cn;gaohuang@tsinghua.edu.cn;{xiebin,lyf,wtc,zej,fhq}@dexmal.com

1.3. 发表期刊/会议

  • 原文标注为 arXiv 预印本(发布日期:2025-08-26T17:57:16Z),尚未注明正式收录的期刊或会议。
  • 在机器人视觉-语言-行动(Vision-Language-Action, VLA)与操控领域,arXiv 是快速传播新方法与新结果的重要渠道;后续若收录至顶会(如 CoRL、ICRA、CVPR、NeurIPS)或顶刊,将进一步提升影响力。

1.4. 发表年份

  • 2025 年(预印本)

1.5. 摘要

  • 问题:机器人操控任务固有非马尔可夫性(决策依赖过去),主流 VLA 模型忽略时间上下文,难以应对长时序依赖任务。
  • 认知科学启示:人脑存在“工作记忆”(短期)和“海马体支持的情景记忆”(长期,保存细节与抽象要旨)。
  • 方法:提出 MemoryVLA(认知-记忆-行动框架)。预训练 VLM 将当前观测编码为“感知词元”(低级视觉细节)与“认知词元”(高级语义概括),形成工作记忆;构建“感知-认知记忆库(PCMB)”保存长时细节与语义。工作记忆检索相关历史,门控融合,并通过“邻近且相似条目合并”的方式进行记忆整合。以记忆增强词元为条件,扩散式动作专家生成具时序感知的行动序列。
  • 结果:在三套仿真(SimplerEnv-Bridge, Fractal;LIBERO-5)与真实机器人(12 项任务)上均优于 SOTA(CogACT、pi-0),例如在 Bridge 上平均成功率提升 +14.6;真实世界长时序任务提升 +26。
  • 结论:显式建模感知-认知记忆对长时序操控至关重要;框架具备鲁棒性与泛化性。

1.6. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 问题本质:机器人操控的状态转移往往非马尔可夫(Non-Markovian),当前时刻最佳动作依赖“过去是否已完成某子目标”。例如“按按钮”任务,按下前后视觉几乎相同,若不记忆是否已按下,策略可能重复或跳步。
  • 现有空白:
    1. 主流 VLA(如 OpenVLA、pi-0)仅看单帧视觉,缺少历史;串联多帧易造成:
      • 自注意力复杂度随帧数二次膨胀,限制时间长度;
      • 输入分布偏离“单帧预训练”范式,域偏移导致性能下降。
    2. 部分视频式 VLM 或轨迹绘制(TraceVLA)方法要么计算复杂,要么丢失丰富语义或细粒度历史。
  • 认知启发:人类依靠工作记忆(短暂)与海马体情景记忆(长期:既保“逐字细节”,也保“抽象要旨”)。本工作将此双记忆机制引入机器人策略。

2.2. 核心贡献/主要发现

  • 方法贡献:
    1. 提出 MemoryVLA:以预训练 VLM 的常识先验构建“感知词元 + 认知词元”的工作记忆,并增设“感知-认知记忆库(PCMB)”以长时保存细节与语义。
    2. 设计记忆三步:检索(带时间位置编码的交叉注意力)、门控融合(自适应整合当前与历史)、整合(相邻最相似条目合并)。
    3. 以记忆增强词元条件扩散式动作专家(DiT+DDIM)生成多步动作序列,显式建模时序依赖。
  • 实证发现:
    • SimplerEnv-Bridge 平均成功率 71.9%,较 CogACT-Large 提升 +14.6,超过 pi-0;
    • SimplerEnv-Fractal 总体 72.7%,较 CogACT +4.6;
    • LIBERO 五套平均 96.5%,超过 CogACT 与 pi-0;
    • 真实世界 12 项任务平均成功 84.0%,长时序任务提升 +26 点。
  • 意义:在仅用第三人称 RGB(无腕视角、无本体状态)情况下,显式记忆机制显著提升长时序操控与泛化鲁棒性。

3. 预备知识与相关工作

3.1. 基础概念

  • 视觉-语言-行动模型(Vision-Language-Action, VLA):将图像与语言指令映射到机器人动作序列的模型范式。
  • 词元(token):在模型中用于表示文字或视觉特征的基本单位,本工作中的词元包括“感知词元”(视觉细节)与“认知词元”(由 LLM 输出的高层语义概括)。
  • 主干网络(backbone):用于提取图像特征的深度网络,如 DINOv2、SigLIP。
  • 扩散模型(diffusion model):通过逐步去噪从噪声中采样目标分布的生成模型,此处用于连续动作轨迹生成;DDIM 是其高效推断变体。
  • 自注意力(self-attention)与交叉注意力(cross-attention):注意力机制核心,用于衡量查询与键(以及值)的相关性,交叉注意力常用于不同模态或不同来源之间的匹配与检索。
  • 工作记忆(working memory):短期保持当前任务相关表征,用于即时决策。
  • 情景记忆(episodic memory):含时间索引的长期记忆,既保存具体细节(verbatim),也保存抽象“主旨”(gist)。

3.2. 前人工作

  • VLA 经典范式:RT-1/RT-2 将动作离散化为词元,用 VLM 自回归生成;OpenVLA 沿此思路开源优化;pi-0、CogACT、DexVLA、HybridVLA 则采用扩散式策略头,更擅长连续控制与多模态行为。
  • 时间建模相关:
    • Octo、RoboVLMs、Interleave-VLA:将视频以图文交错方式喂入 VLM,概念优雅但工程复杂、计算成本高;
    • RoboFlamingo:将视觉-语言压缩为潜在词元,用 LSTM 传播,细粒度历史丢失较多;
    • TraceVLA:在当前帧上绘制历史轨迹,表达轨迹而非丰富语义;
    • UniVLA:将过去动作作为 CoT 风格提示,但未有效利用丰富历史内容。
  • 位置与差异:MemoryVLA同时保存高层语义与细粒度视觉历史,建立可检索、可融合、可整合的记忆机制,旨在适配长时序操控需求,兼顾效率与表达力。

3.3. 技术演进与差异化分析

  • 由“单帧即时决策”到“多帧视频建模”,再到“显式记忆库与工作记忆协同”,MemoryVLA通过“感知-认知双通道”设计,把高层决策线索(认知)与底层操作细节(感知)均纳入时序检索与融合。
  • 区别于直接串帧输入或单一潜在压缩,PCMB 避免二次复杂度膨胀且保持与“单帧预训练分布”一致(当前帧编码),通过检索机制拉取历史,兼顾计算可控与信息充分。

4. 方法论

4.1. 方法原理

  • 核心思想:将当前时刻编码得到的工作记忆(感知词元 p 与认知词元 c)与长期记忆库(PCMB)协同,使策略在每一步都能“想起”与当前决策相关的历史细节与语义,并以门控方式选择性融合,随后用扩散式动作专家输出多步行动序列,显式考虑未来的连续控制。
  • 直觉:像人类一样,短期工作记忆用于即时控制,而海马体样的记忆库记录过去的经历与上下文;当前需要时检索相关历史,避免重复、跳步或遗忘关键状态。

4.2. 整体架构与数据流

下图(原文 Figure 2)展示了 MemoryVLA 的整体架构:

Figure 2: Overall architecture of MemoryVLA. RGB observation and language instruction are encoded by a 7B VLM into perceptual and cognitive tokens, forming short-term working memory. The working memory queries a perceptual-cognitive memory bank (PCMB) to retrieve relevant historical context, including high-level semantics and low-level visual details, adaptively fuses it with current tokens, and consolidates the PCMB by merging the most similar neighbors. The memoryaugmented tokens then condition a diffusion transformer to predict a sequence of future actions. 该图像是MemoryVLA的整体架构示意图。图中展示了RGB观察和语言指令如何通过7B大型语言模型编码为感知和认知标记,形成短期工作记忆。工作记忆从感知-认知记忆库中检索历史上下文,并与当前标记自适应融合,以预测未来行动序列。

  • 输入:第三人称 RGB 图像 IRH×W×3I \in \mathbb{R}^{H \times W \times 3} 与语言指令 LL
  • VLM 编码:并行图像主干(DINOv2 + SigLIP)获得原始视觉词元,经 SE-bottleneck 压缩得到感知词元 pp;同时将视觉词元投影到语言空间,与指令拼接并输入 LLaMA-7B,取句末(EOS)位置输出作为认知词元 cc
  • 工作记忆:Mwk={p,c}M_{\mathrm{wk}} = \{ p, c \}
  • 记忆库(PCMB):保存历时的感知条目与认知条目,带时间位置编码,可被当前工作记忆检索。
  • 检索与融合:通过带时间编码的交叉注意力从 PCMB 取出相关历史 Hp,HcH^p, H^c,以门控机制与当前 p, c 融合得到 p~,c~\tilde{p}, \tilde{c}
  • 整合与更新:若记忆容量达到上限,按“相邻最相似合并”压缩冗余。
  • 扩散动作专家:以 p~,c~\tilde{p}, \tilde{c} 条件 DiT+DDIM,生成 T=16T=16 步未来动作序列。

4.3. 数学定义与符号解释(逐步融入)

4.3.1. 策略输出动作序列

A=(a1,,aT)=π(I,L), \mathcal{A} = (a_{1}, \ldots, a_{T}) = \pi(I, L),

  • 符号解释:
    • A\mathcal{A}:未来动作序列;

    • ata_t:第 tt 步动作;

    • TT:动作序列长度(本文设定 T=16T=16);

    • π()\pi(\cdot):参数化策略(MemoryVLA);

    • II:当前 RGB 图像;

    • LL:语言指令。

      每个动作的构成: at=[Δx,Δy,Δz,Δθx,Δθy,Δθz,g], a_t = [\Delta x, \Delta y, \Delta z, \Delta \theta_{x}, \Delta \theta_{y}, \Delta \theta_{z}, g]^{\top},

  • 符号解释:
    • Δx,Δy,Δz\Delta x, \Delta y, \Delta z:末端执行器的相对平移;
    • Δθx,Δθy,Δθz\Delta \theta_x, \Delta \theta_y, \Delta \theta_z:相对旋转(欧拉角);
    • g{0,1}g \in \{0,1\}:夹爪状态(二值,开/关)。

4.3.2. 工作记忆与记忆库

工作记忆: Mwk={pRNp×dp,  cR1×dc}. M_{\mathrm{wk}} = \{ p \in \mathbb{R}^{N_{p} \times d_{p}}, \; c \in \mathbb{R}^{1 \times d_{c}} \}.

  • 符号解释:
    • pp:感知词元矩阵,NpN_p 表示词元数(本文设 Np=256N_p=256),dpd_p 为维度;

    • cc:认知词元(单向量,1×dc1 \times d_c);

    • MwkM_{\mathrm{wk}}:工作记忆集合。

      感知-认知记忆库(PCMB): Mpcmb={mxx{per,cog}}, M_{\mathrm{pcmb}} = \{ m^{x} \mid x \in \{\mathrm{per}, \mathrm{cog}\} \}, mx={mixRNx×dx}i=1L,x{per,cog}. m^{x} = \{ m_{i}^{x} \in \mathbb{R}^{N_{x} \times d_{x}} \}_{i=1}^{L}, \quad x \in \{\mathrm{per}, \mathrm{cog}\}.

  • 符号解释:
    • mperm^{\mathrm{per}}:感知流的记忆条目集合;
    • mcogm^{\mathrm{cog}}:认知流的记忆条目集合;
    • mixm_i^{x}:第 ii 个记忆条目(xx 指明是感知或认知);
    • Nx,dxN_x, d_x:该流的词元数与维度;
    • LL:每一流的最大条目数(记忆长度/容量)。

4.3.3. 记忆检索(带时间位置编码的交叉注意力)

下图(原文 Figure 3(a))示意检索流程:

Figure 3: Details of memory module. (a) Retrieval: current perceptual and cognitive tokens query the PCMB via cross-attention with timestep positional encoding to fetch relevant historical features. (b) Gate fusion: current and retrieved tokens are adaptively fused via a gate mechanism. (c) Consolidation: the fused tokens are updated into PCMB. When PCMB reaches its capacity, we compute similarities between adjacent entries and merge the most similar pair to maintain compactness. 该图像是图3,展示了MemoryVLA中的记忆模块细节。图中包含三个部分: (a) 记忆检索,通过时间步位置编码的交叉注意力获取历史特征;(b) 门控融合,当前和检索的标记通过门机制进行自适应融合;(c) 记忆整合,更新后的标记合并并存储入记忆库。

构造带时间位置编码的键值: Kx=[m1x+TE(t1);  ;  mLx+TE(tL)],Vx=[m1x;  ;  mLx], K^{x} = [ m_{1}^{x} + \mathrm{TE}(t_{1}); \; \ldots; \; m_{L}^{x} + \mathrm{TE}(t_{L}) ], \quad V^{x} = [ m_{1}^{x}; \; \ldots; \; m_{L}^{x} ],

  • 符号解释:
    • TE(ti)\mathrm{TE}(t_i):时间步 tit_i 的正弦位置编码向量(对记忆条目进行时序标注);

    • KxK^{x}:带时间编码的“键”;

    • VxV^{x}:对应的“值”。

      当前词元作为查询(双通道:感知与认知),做缩放点积注意力: H^x=softmax(qx(Kx)dx)Vx,qx{p,c},  x{per,cog}. \hat{H}^{x} = \mathrm{softmax}\Bigg( \frac{ q^{x} (K^{x})^{\top} }{ \sqrt{d_{x}} } \Bigg) V^{x}, \quad q^{x} \in \{ p, c \}, \; x \in \{ \mathrm{per}, \mathrm{cog} \}.

  • 符号解释:
    • qxq^{x}:查询(当前的感知词元 pp 或认知词元 cc);
    • dxd_x:对应通道的维度,用于缩放稳定训练;
    • H^x\hat{H}^{x}:原始注意力输出。 随后接前馈网络(FFN)构成一层 Transformer,堆叠两层得到最终检索嵌入 Hp,HcH^{p}, H^{c}

4.3.4. 门控融合

下图(原文 Figure 3(b))展示门控融合:

Figure 3: Details of memory module. (a) Retrieval: current perceptual and cognitive tokens query the PCMB via cross-attention with timestep positional encoding to fetch relevant historical features. (b) Gate fusion: current and retrieved tokens are adaptively fused via a gate mechanism. (c) Consolidation: the fused tokens are updated into PCMB. When PCMB reaches its capacity, we compute similarities between adjacent entries and merge the most similar pair to maintain compactness. 该图像是图3,展示了MemoryVLA中的记忆模块细节。图中包含三个部分: (a) 记忆检索,通过时间步位置编码的交叉注意力获取历史特征;(b) 门控融合,当前和检索的标记通过门机制进行自适应融合;(c) 记忆整合,更新后的标记合并并存储入记忆库。

为每个通道计算门控向量并融合: gx=σ(MLP(concat[x,Hx])), g^{x} = \sigma \big( \mathrm{MLP}(\mathrm{concat}[ x, H^{x} ]) \big), x~=gxHx+(1gx)x,x{p,c}. \tilde{x} = g^{x} \odot H^{x} + (1 - g^{x}) \odot x, \quad x \in \{p, c\}.

  • 符号解释:
    • xx:当前通道的词元(ppcc);
    • HxH^{x}:检索到的历史嵌入;
    • MLP\mathrm{MLP}:多层感知机;
    • σ()\sigma(\cdot):Sigmoid 激活,输出在 [0,1]
    • gxg^{x}:门控向量,逐元素调节“用历史还是用当前”;
    • \odot:逐元素乘。
  • 直观理解:如果某维度 gxg^{x} 接近 1,倾向采用历史;接近 0,倾向保持当前。实现“自适应引入历史”。

4.3.5. 记忆整合(容量控制与冗余合并)

下图(原文 Figure 3(c))展示整合机制:

Figure 3: Details of memory module. (a) Retrieval: current perceptual and cognitive tokens query the PCMB via cross-attention with timestep positional encoding to fetch relevant historical features. (b) Gate fusion: current and retrieved tokens are adaptively fused via a gate mechanism. (c) Consolidation: the fused tokens are updated into PCMB. When PCMB reaches its capacity, we compute similarities between adjacent entries and merge the most similar pair to maintain compactness. 该图像是图3,展示了MemoryVLA中的记忆模块细节。图中包含三个部分: (a) 记忆检索,通过时间步位置编码的交叉注意力获取历史特征;(b) 门控融合,当前和检索的标记通过门机制进行自适应融合;(c) 记忆整合,更新后的标记合并并存储入记忆库。

当条目数超过容量 LL,在每一流(感知与认知)对“相邻条目”计算余弦相似度,选择最高者合并: ix=argmaxi=1,,L1cos(x~i,x~i+1),mixx12(x~ix+x~ix+1),x{per,cog}. i_{x}^{*} = \arg \operatorname*{max}_{i = 1, \ldots, L-1} \cos( \tilde{x}_{i}, \tilde{x}_{i+1} ), \quad m_{i_{x}^{*}}^{x} \gets \frac{1}{2} \big( \tilde{x}_{i_{x}^{*}} + \tilde{x}_{i_{x}^{*} + 1} \big), \quad x \in \{ \mathrm{per}, \mathrm{cog} \}.

  • 符号解释:
    • x~i\tilde{x}_i:融合后的第 ii 个条目;
    • cos(,)\cos(\cdot,\cdot):余弦相似度(衡量方向相似性);
    • ixi_x^{*}:最相似相邻对的索引;
    • 合并策略:对最相似相邻对做向量平均,减冗保精。
  • 直觉:相邻在时间上更可能语义相近;合并最相似对,兼顾保留要旨与紧凑存储。

4.4. 视觉-语言认知模块细节

  • 视觉编码:并行采用 DINOv2 与 SigLIP 主干网络提取视觉特征,拼接为原始视觉词元;通过 SE-bottleneck 压缩为 pRNp×dpp \in \mathbb{R}^{N_p \times d_p}
  • 认知编码:将视觉词元线性投影到语言空间,与指令词元拼接输入 LLaMA-7B,取 EOS 位置输出作为 cR1×dcc \in \mathbb{R}^{1 \times d_c}(代表高层语义概括)。
  • 工作记忆:pp(细粒度视觉)、cc(抽象语义)联合用作当前时刻的短期表征。

4.5. 记忆条件扩散式动作专家

  • 结构:采用 DiT(Transformer 版扩散)与 DDIM(10 步推断)生成连续 7-DoF 动作序列。
  • 条件化:在每个去噪步,将噪声动作词元与去噪时间步的正弦编码注入,并与认知表示 cc 拼接;加入“认知注意力层”提供高层语义,引入“感知注意力层”补充细粒度视觉 p~\tilde{p};再经 FFN 输出该步去噪结果。
  • 训练损失:用 MSE(均方误差)监督预测动作与目标动作。
  • 推断:DDIM 10 步 + classifier-free guidance(CFG)比例 1.5,用以提升条件引导强度与样本质量。
  • 直觉:高层认知指导“做什么”,细粒度感知保证“怎么做”(抓取姿态、路径细节),扩散过程提供多步前瞻,降低累积误差。

5. 实验设置

5.1. 数据集与任务

下图(原文 Figure 4)概览了仿真与真实设定:

Figure 4: Experimental setup overview. Top: three simulation benchmarks, SimpleEnv-Bridge with WidowX, SIMPLER-Fractal with Google Robot, and LIBERO with Franka. Bottom: realworld evaluation on two suites, General and Long-horizon Temporal. In total, we evaluate three robots across 10 suites, spanning over 150 tasks and 500 variations. 该图像是实验设置概述图。图中展示了三种仿真实验基准:SimplerEnv-Bridge、SimplerEnv-Fractal和LIBERO,分别对应WidowX、Google和Franka机器人。底部显示了真实世界的评估,涵盖一般技能和长期依赖的任务,共涉及150多个任务和500个变种。

  • 仿真:
    • SimplerEnv-Bridge(WidowX 机器人,4 个桌面操控任务,来自 Bridge v2 数据集)
    • SimplerEnv-Fractal(Google Robot,RT-1 数据集派生的 4 类任务,VM/VA 两种设定)
    • LIBERO(Franka 机器人,Spatial/Object/Goal/Long/LIBERO-90 五套共 130 任务)
  • 真实世界:
    • Franka、WidowX 两机器人,共 12 任务:6 个一般操控、6 个长时序依赖操控
    • 统一第三人称 RGB(RealSense D435)固定视角,ROS 集成

5.2. 训练与实现细节

  • 硬件与框架:8×NVIDIA A100,PyTorch FSDP;每卡 32 样本,全局批量 256;学习率 2×1052 \times 10^{-5}
  • 输入与模型规模:单帧 RGB(224×224)+ 指令;LLM 为 7B;扩散动作专家约 3 亿参数。
  • 推断:DDIM 10 步;CFG scale=1.5。
  • 数据管道:
    • 仅使用第三人称 RGB,无腕视角、无本体(proprioceptive)状态。

    • 不同套件按官方协议划分训练步数与验证频次。

      以下是原文 Table 7 的训练/模型超参数(Hyper-parameters)汇总:

      HyperparameterValue
      Batch size32 × 8
      Learning rate2 × 10−5
      Repeated diffusion steps4
      Action trunking size16
      Perceptual token channels256
      Max grad. norm1.0
      CFG scale (classifier-free guidance)1.5

5.3. 评估指标(完整说明)

  • 成功率(Success Rate, %)
    • 概念定义:在给定任务与试验次数下,智能体成功完成任务的占比,用于衡量策略在该任务上的达成能力。
    • 数学公式: Success Rate=NsuccNtotal×100%. \mathrm{Success\ Rate} = \frac{N_{\mathrm{succ}}}{N_{\mathrm{total}}} \times 100\%.
    • 符号解释:
      • NsuccN_{\mathrm{succ}}:成功试次数;
      • NtotalN_{\mathrm{total}}:总试次数。
  • 平均成功率(跨任务/跨套件)
    • 概念定义:对多个任务的成功率取算术平均,用于整体对比。
    • 数学公式: S=1Kk=1KSk, \overline{S} = \frac{1}{K} \sum_{k=1}^{K} S_{k},
    • 符号解释:
      • KK:任务数量;
      • SkS_{k}:第 kk 个任务成功率。
  • 真实世界长时序任务的“分步计分”:原文给定每任务的分步评分规则(例如“按正确按钮得 30 分”,全对加 10 分等),最终报告为百分制或平均“成功分数(%)”。尽管该计分不是单一闭式公式,但可理解为“按规则汇总得到每次试验得分,再对试验取平均并归一成百分比”。

5.4. 对比基线

  • 离散动作自回归类:RT-1/RT-2、OpenVLA
  • 扩散动作类:pi-0(含 FAST 变体)、CogACT、DexVLA、HybridVLA
  • 视频/时序建模类:Octo、RoboVLMs、Interleave-VLA、RoboFlamingo、TraceVLA、UniVLA、SpatialVLA、Magma、4D-VLA
  • 说明:部分基线(如 pi-0-FAST)使用额外传感(腕视角、本体状态),本方法仅用第三人称 RGB,比较更具挑战性。

6. 实验结果与分析

6.1. 仿真:SimplerEnv-Bridge

以下是原文 Table 1 的结果:

MethodSpoon on TowelCarrot on PlateStack CubeEggplant in BasketAvg. Success
RT-1-X (O'Neill et al., 2024)0.04.20.00.01.1
OpenVLA (Kim et al., 2024)4.20.00.012.54.2
Octo-Base (Team et al., 2024)15.812.50.041.717.5
TraceVLA (Zheng et al., 2024b)12.516.616.665.027.7
RoboVLMs (Liu et al., 2025a)45.820.84.279.237.5
SpatialVLA (Qu et al., 2025)16.725.029.2100.042.7
Magma (Yang et al., 2025)37.529.220.891.744.8
CogACT-Base (Li et l., 2024a)71.750.815.067.551.3
π0-Uniform* (Black et al., 2024)63.358.821.379.255.7
CogACT-Large (Li et al., 2024a)58.345.829.295.857.3
π0-Beta* (Black et al., 2024)84.655.847.985.468.4
MemoryVLA (Ours)75.075.037.5100.071.9 (+14.6)
  • 核心分析:MemoryVLA 在四个任务上均有优势,尤其“Eggplant in Basket”达到 100%,整体平均 71.9%,较 CogACT-Large 提升 14.6 点。说明显式记忆机制在 SimplerEnv 桌面操控高度有效。

6.2. 仿真:SimplerEnv-Fractal(VM/VA)

以下是原文 Table 2 的结果:

MethodVisual Matching (VM)Visual Aggregation (VA)Overall
Coke CanMove NearO./C. DrawerPut in DrawerAvg.Coke CanMove NearO./C. DrawerPut in DrawerAvg.
Octo-Base (Team et al., 2024)17.04.222.70.011.00.63.11.10.01.26.1
RT-1-X ONeil t al. 20)56.731.759.721.342.449.032.329.410.130.236.3
OpenVLA (Kim et al, 2024)18.056.363.00.034.360.867.728.80.039.336.8
RoboVLMs (Liu et al., 2025a)76.379.044.927.857.050.762.510.30.030.944.0
TraceVLA (Zheng et al., 202)45.063.863.111.145.864.360.661.612.549.847.8
RT-2-X ONel t a20278.777.925.03.746.382.379.235.520.654.450.4
Magma (Yang et al., 2025)75.053.058.98.348.868.678.559.024.057.553.2
SpatialVLA (Qu et al, 2025)79.390.054.60.056.078.783.039.26.351.853.9
π0-Uniform* (Black et l, 204)88.080.356.052.269.1-
π0-Beta*(Black et al., 2024)97.978.762.3 71.846.671.480.8
CogACT (Li et al., 202a)91.385.050.974.889.628.346.661.368.1
MemoryVLA (Ours)90.788.084.747.277.780.578.853.258.367.772.7 (+4.6)
  • 核心分析:在 VM(贴近真实)与 VA(强视觉扰动)两设定下,MemoryVLA 总体 72.7%,相较 CogACT 提升 4.6 点;在“开/关抽屉(VM)”上显著提升至 84.7%。说明记忆检索与门控融合在复杂视觉域变换下仍有优势。

6.3. 仿真:LIBERO(五套)

以下是原文 Table 3 的结果:

MethodSpatialObjectGoalLongLIBERO-90Avg. Success
Diffusion Policy (Chi et al., 2023)78.392.568.350.572.4
Octo (Team et al., 2024)78.985.784.651.175.1
MDT (Reuss et al., 2024)78.587.573.564.876.1
UniACT (Zheng et al., 2025b)77.087.077.070.073.076.8
MaIL (Jia et al., 2024)74.390.181.878.683.5
SpatialVLA (Qu et al., 2025)88.289.978.655.546.271.7
TraceVLA (Zheng et al., 2024b)84.685.275.154.174.8
OpenVLA (Kim et al., 2024)84.788.479.253.773.575.9
CoT-VLA (Zhao et al., 2025)87.591.687.669.081.1
π0-FAST* (Pertsch et al., 2025)96.496.888.660.283.185.0
TriVLA (Liu et al., 2025c)91.293.889.873.287.0
4D-VLA (Zhang et al., 2025a)88.995.290.979.188.6
CogACT (Li et al., 2024a)97.298.090.288.892.193.2
π0 (Black et al., 2024)96.898.895.885.294.2
MemoryVLA (Ours)98.498.496.493.495.696.5 (+3.3)
  • 核心分析:在 LIBERO 上 MemoryVLA 平均 96.5%,全面超过 CogACT(93.2)与 pi-0(94.2)。尤其 Long 套件(长时序)达 93.4%。在仅用第三人称 RGB 的条件下取得更高成绩,体现时间记忆的关键作用。

6.4. 真实世界:一般任务与长时序任务

以下是原文 Table 4 的结果:

MethodGeneral Tasks
Insert CircleEgg in PanEgg in OvenStack CupsStack BlocksPick Diverse FruitsAvg. Success
OpenVLA (Kim et al., 2024)4727534013431
π0 (Black et al., 2024)67737387538072
CogACT (Li et al., 2024a)80676093807676
MemoryVLA (Ours)87808093878485 (+9)
MethodLong-horizon Temporal Tasks
Seq. Push ButtonsChange FoodGuess WhereClean Table & CountPick Place OrderClean Rest. TableAvg. Success
OpenVLA (Kim et al., 2024)630152709
π0 (Black et al., 2024) CogACT (Li et al., 2024a)25 1542 472461 6782 908052
408457
MemoryVLA (Ours)588572841009683 (+26)
  • 核心分析:
    • 一般任务(插圈、蛋入锅/烤箱、叠杯/积木、挑选多样水果):MemoryVLA 平均 85%,较 CogACT +9;在“Egg in Oven”提升显著(+20)。
    • 长时序任务(按序按钮、换食物、猜位置/揭盖、清台并计数、按序挑拣、清餐桌):MemoryVLA 平均 83%,较 SOTA(CogACT/π0)提升 +26,尤其“按序按钮”提升 +43,“换食物”+38。长时序依赖任务优势突出。

6.5. 消融与参数分析

以下是原文 Table 5(记忆类型与长度)与 Table 6(检索/融合/整合)的结果:

VariantAvg.Success
MemoryTypeCognitive Mem.Perceptual Mem.63.564.6
Both71.9
MemoryLength467.7
166471.9
67.7
VariantAvg.Success
Retrievalw/o Timestep PE69.8
w/ Timestep PE71.9
FusionAdd67.7
Gate71.9
ConsolidationFIFO66.7
Token Merge71.9
  • 分析:
    • 记忆类型:仅认知或仅感知均不如二者结合(71.9%);说明“高层语义 + 细粒度细节”双通道必要。
    • 记忆长度:16 最优(71.9%);过短(4)或过长(64)均下降,提示“历史窗口”需与任务复杂度匹配。
    • 检索:加入时间位置编码(timestep PE)显著提升(69.8→71.9),强调“时间索引”的重要性。
    • 融合:门控优于简单相加(67.7→71.9);表明“选择性融合”的作用。
    • 整合:Token merge 优于 FIFO 丢弃(66.7→71.9),说明“相邻最相似合并”更保留关键信息。

6.6. 鲁棒性与泛化(OOD)

下图(原文 Figure 5)展示真实世界 OOD 变体与成功率:

该图像是多个场景的示意图,展示了各种OOD(超出分布)变体的拾取放置顺序和干净餐桌的泛化能力。图中包括基础场景、未见背景、未见干扰物、未见物体、未见容器及遮挡情形的对比,通过图(c)和图(d)呈现了相关的成功率数据。 该图像是多个场景的示意图,展示了各种OOD(超出分布)变体的拾取放置顺序和干净餐桌的泛化能力。图中包括基础场景、未见背景、未见干扰物、未见物体、未见容器及遮挡情形的对比,通过图(c)和图(d)呈现了相关的成功率数据。

  • 任务“Pick Place Order”:在未见背景/干扰物/光照/容器/遮挡下仍接近满分;未见物体略有下降(89%)。

  • 任务“Clean Restaurant Table”:各 OOD 条件下均保持高分(>86%)。

    下图(原文 Figure 6 与 Figure 7)展示仿真 OOD:

    Figure 6: Robustness and generalization under out-of-distribution (OOD) variants in simulation: Pick and Move tasks. (a) Pick Coke Can and (b) Move Near tasks evaluated under unseen backgrounds, distractors, lighting, textures, and camera views. Bar plots report the corresponding success rates, showing that MemoryVLA maintains strong performance across most shifts, with the largest degradation under unseen camera views. 该图像是图表,展示了在不同的外部分布(OOD)变体下,MemoryVLA 在拾取和移动任务中的稳健性与泛化能力。图中包含两组任务:拾取可口可乐罐和移动附近的物体;条形图报告了不同条件下的成功率,显示了在大多数情况下仍能保持较强性能,尤其在未见摄像头视角下表现出较大下降。

    Figure 7: Robustness and generalization under out-of-distribution (O0D) variants in simulation: Hinge-like object manipulation. (a) OOD variants of Open/Close Drawer and (b) Place Apple Into Drawer tasks, including unseen backgrounds, distractors, lighting, textures, and camera views. Quantitative results indicate that MemoryVLA generalizes well under moderate shifts, while performance drops notably with camera views changes. 该图像是插图,展示了开/关抽屉和将苹果放入抽屉任务在不同OOD(Out-Of-Distribution)变体下的表现。图(a)和(b)展示了不同背景、照明和纹理下的任务示例,图(c)和(d)分别表明了在这些变体下的任务泛化性能,基线性能分别为46.3%到72.0%。

  • 结论:对背景、干扰物、纹理等中等扰动有良好泛化;对未见“相机视角”退化明显(如 Pick Coke Can 在 unseen camera view 42%),提示视角变化是主要挑战。

7. 总结与思考

7.1. 结论总结

  • MemoryVLA 将“工作记忆 + 海马体式情景记忆”引入 VLA,提出感知-认知双流记忆库(PCMB),以时间位置编码检索、门控融合、相邻相似合并整合,配合记忆条件扩散专家输出长时序动作。
  • 在 SimplerEnv、LIBERO 与真实世界 150+ 任务、500+ 变体上,MemoryVLA 均优于 SOTA(CogACT、pi-0),尤其在长时序任务上优势显著。
  • 仅用第三人称 RGB 即实现强性能与鲁棒泛化,凸显“显式记忆”的关键价值。

7.2. 局限性与未来工作

  • 局限性:
    1. 视角变化敏感:在未见相机视角下退化较大,表明记忆检索与融合对视角一致性依赖较强。
    2. 记忆容量与策略:固定容量 L 与“相邻最相似合并”可能在复杂情境下丢失关键细节或时序线索。
    3. 认知词元压缩:使用 EOS 单向量概括高层语义,表达力与可解释性可能受限;复杂任务的推理链未显式保存在 LLM 语义空间。
    4. 计算与部署:尽管避免了多帧串联的二次复杂度,但检索与融合仍引入额外开销;在资源受限平台的实时性需进一步优化。
  • 未来方向(原文提出):
    1. 记忆反思(memory reflection):将长期记忆对齐到 LLM 输入空间,支持“嵌入空间的链式思考(Chain-of-Thought)”;
    2. 终身记忆(lifelong memory):生物启发的整合,将高复用经历蒸馏为永久表征,跨场景/任务/机体迁移。

7.3. 个人启发与批判

  • 启发:
    • 将认知科学双记忆机制引入机器人操控十分自然且有效。双流(感知+认知)与门控融合的组合兼顾“做什么”与“怎么做”,对长时序复杂任务帮助显著。
    • 仅以第三人称 RGB 达到 SOTA 甚至超越使用额外传感的基线,说明“结构化记忆”比“堆更多感知通道”更具信息效率。
  • 可迁移性:
    • 该框架可扩展到移动导航、交互式多步骤装配等任务,并可与多模态传感(触觉、力反馈)协同,增强记忆条目的语义与物理属性。
  • 批判与改进:
    • 视角泛化:可引入“跨视角对齐”的视觉几何先验(如 3D 场景、NeRF/深度估计),缓解视角变化带来的检索不匹配。

    • 记忆选择策略:除相邻相似合并,考虑事件驱动的关键帧检测或基于置信/不确定性的保留与清理,避免误合并。

    • 认知层增强:将认知词元扩展为多词元序列,并引入显式推理轨迹,使 LLM 能对长期记忆进行结构化调用(例如通过可微检索器接入)。

    • 评估公平性:持续在“统一输入模态”条件下对比(如剔除腕视角/本体状态的版本),更系统量化记忆机制的贡献。


下图(原文 Figure 1)通过“按按钮任务”的非马尔可夫性、人类双记忆系统与 MemoryVLA 的 PCMB 概念图,直观展示了本文动机与方案:

Figure 1: (a) In Push Buttons tasks, pre- and post-push states look nearly identical, calling for temporal modeling. (b) Humans handle manipulation tasks via a dual-memory system: working memory (neural activity) supports short-term control, while episodic memory (hippocampus) preserves long-term experience. (c) Inspired by this, MemoryVLA introduces a PerceptualCognitive Memory Bank that consolidates low-level perceptual details and high-level cognitive semantics for temporally aware decision making. (d) MemoryVLA outperforms state-of-the-art baselines. 该图像是图示,展示了 MemoryVLA 在机器人操控中的认知-记忆-行动框架。图中包括人类认知与记忆系统的示意,以及 MemoryVLA 的工作记忆和感知-认知记忆库的工作流程,并比较了其在各个任务中的表现。整体展示了 MemoryVLA 的优势和设计理念。

为便于读者直观理解本文的真实与仿真效果,以下选取部分定性示例(架构与方法已在上文解释,图片此处作为佐证):

  • 真实一般任务(原文 Figure 12):

    Figure 12: Qualitative results of MemoryVLA on real-world general tasks. Representative examples include Insert Circle, Egg in Pan, Egg in Oven, Stack Cups, Stack Blocks, and Pick Diverse Fruits tasks. 该图像是插图,展示了MemoryVLA在现实世界中的多项任务示例,包括插圈、将鸡蛋放入平底锅、将鸡蛋放入烤箱、堆叠杯子、堆叠积木以及挑选多样水果。每个任务的步骤被清晰地描绘,说明了机器人的操作过程。

  • SimplerEnv-Bridge(原文 Figure 13):

    Figure 13: Qualitative results of MemoryVLA on SimplerEnv-Bridge tasks. Representative examples include Spoon on Tower, Carrot on Plate, Stack Cube, and Eggplant in Basket tasks. 该图像是图示,展示了MemoryVLA在SimplerEnv-Bridge任务中的定性结果。图中包括四个操作示例:在塔上放置勺子(Spoon on Tower),将胡萝卜放置在盘子上(Carrot on Plate),将绿立方体叠放在黄立方体上(Stack Cube),以及将茄子放在篮子里(Eggplant in Basket)。

  • SimplerEnv-Fractal(原文 Figure 14):

    Figure 14: Qualitative results of MemoryVLA on SimplerEnv-Fractal tasks. Representative examples include Pick Coke Can, Move Near, Open/Close Drawer, and Put in Drawer tasks. 该图像是图示,展示了 MemoryVLA 在 SimplerEnv-Fractal 任务中的定性结果。示例任务包括:拾起可乐罐、将橙子移近百事可乐、打开/关闭抽屉以及将苹果放入抽屉。

  • LIBERO(原文 Figure 15):

    Figure 15: Qualitative results of MemoryVLA on LIBERO tasks. Representative examples include tasks from Spatial, Object, Goal, Long, and LIBERO-90 suites. 该图像是图表,展示了 MemoryVLA 在 LIBERO 任务上的定性结果,包括空间(a)、物体(b)、目标(c)、长任务(d)和 LIBERO-90(e)等任务的代表性示例。

在长时序真实任务的示例中(原文 Figure 10、Figure 11),可以观察到 MemoryVLA 通过检索并融合历史状态,有效避免重复或漏步,体现“知道已做过什么、接下来该做什么”的能力:

该图像是示意图,展示了机器人在执行一系列操作时的过程。图中显示了机器人抓取、移动和放置不同颜色的物体,体现了机器人在长期任务中的操作能力和动作序列的时间依赖性。
该图像是示意图,展示了机器人在执行一系列操作时的过程。图中显示了机器人抓取、移动和放置不同颜色的物体,体现了机器人在长期任务中的操作能力和动作序列的时间依赖性。

该图像是示意图,展示了机器人进行物品抓取的步骤。图中显示了机器人手臂在不同阶段的动作,目标物体包括一个蓝色盘子和红色、黄色的胡萝卜。该图像有助于理解 MemoryVLA 在机器人操作中的应用。 该图像是示意图,展示了机器人进行物品抓取的步骤。图中显示了机器人手臂在不同阶段的动作,目标物体包括一个蓝色盘子和红色、黄色的胡萝卜。该图像有助于理解 MemoryVLA 在机器人操作中的应用。

最后,说明:本文所有公式严格按原文呈现,并在相应步骤中逐一解释符号与作用;所有表格均完整转录(含合并单元格);所有图片均在相关分析段落中引用并以系统提供的本地文件名插入。以上内容遵循面向初学者、深度优先与批判性思考的三大原则。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。