论文状态:已完成

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

发表:2025/10/29
原文链接PDF 下载
价格:0.100000
价格:0.100000
已有 5 人读过
本分析由 AI 生成,可能不完全准确,请以原文为准。

TL;DR 精炼摘要

本文研究了视觉-语言-动作(VLA)模型在微调过程中如何影响视觉表征。发现简单的动作微调会导致视觉知识退化,进而影响在新的分布外场景中的表现。为解决这个问题,提出了一种视觉表征对齐的方法,通过与冻结的视觉教师模型保持对齐,成功恢复了视觉语义能力,提升了模型的泛化能力。

摘要

The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io

思维导图

论文精读

中文精读

1. 论文基本信息

1.1. 标题

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization (中文译名:别让你的 VLA “失明”:对齐视觉表征以实现分布外泛化)

1.2. 作者

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov

  • 隶属机构: Cognitive AI Lab (莫斯科), IAI MIPT (莫斯科物理技术学院)

1.3. 发表期刊/会议

  • 发表时间: 2025年10月29日 (UTC)
  • 状态: arXiv 预印本

1.4. 摘要

视觉-语言-动作 (VLA) 模型通过微调预训练的 视觉-语言模型 (VLM) 来获得控制机器人的能力。然而,研究发现,当 VLM 针对具体的动作任务进行微调(Fine-tuning)时,其原有的丰富视觉和语言知识会发生退化,导致模型在面对新场景(分布外,OOD)时表现不佳。 本文系统地研究了这一现象,发现简单的动作微调会导致视觉表征的“坍塌”和注意力的“发散”。为了解决这个问题,作者提出了 VL-Think 评估套件来诊断这种能力丧失,并引入了一种简单有效的 视觉表征对齐 (Visual Representation Alignment) 方法。该方法通过强制 VLA 的视觉特征与一个强大的冻结视觉教师模型保持对齐,成功恢复了视觉语义能力,显著提升了机器人在分布外场景中的泛化能力。

1.5. 原文链接

2. 整体概括

2.1. 研究背景与动机

  • 核心问题: 当前流行的具身智能模型(VLA)通常是在强大的预训练视觉-语言模型(VLM)基础上,通过机器人动作数据进行微调得到的。理论上,VLM 应该赋予机器人通用的世界知识和视觉理解能力。然而,作者发现,“微调”过程实际上可能是在“破坏”这些能力。
  • 重要性: 机器人数据通常规模较小且分布狭窄(例如只包含特定的桌子和物体)。如果在这些数据上过度训练,模型就会忘记通用的视觉概念(如“红色”、“圆形”或复杂的背景理解),这被称为灾难性遗忘 (Catastrophic Forgetting)表征坍塌 (Representation Collapse)。这导致机器人只能在训练过的场景下工作,一旦环境稍有变化(分布外,OOD),机器人就会失效。
  • 现有空白: 之前的工作主要关注如何提升机器人的动作执行成功率,而很少有人深入探究微调过程中视觉表征究竟发生了什么变化,以及如何保留原有的通用视觉能力。

2.2. 核心贡献与主要发现

  1. 现象诊断: 揭示了标准动作微调会导致 VLA 模型的视觉表征退化(t-SNE 分析显示特征混杂)和注意力机制失效(Attention Map 显示模型不再关注关键物体,而是关注无关背景)。
  2. 评估工具 (VL-Think): 提出了一个新的诊断任务套件 VL-Think,专门用于评估 VLA 模型是否保留了如颜色、形状、交通标志等通用的视觉-语言知识,而不受限于复杂的动作执行难度。
  3. 解决方案 (Visual Alignment): 提出了一种轻量级的 视觉表征对齐 方法。该方法受到“柏拉图表征假说”的启发,在微调过程中引入辅助损失函数,强制 VLA 的内部视觉特征与一个通用的、冻结的视觉“教师”模型保持一致。
  4. 实验验证: 在 Simpler 仿真基准上,该方法在语义、视觉和执行三个维度的泛化测试中均优于标准微调方法,相对提升高达 10%。

3. 预备知识与相关工作

3.1. 基础概念

为了理解本文,初学者需要掌握以下概念:

  • VLM (Vision-Language Model, 视觉-语言模型): 能够同时理解图像和文本的模型,例如 GPT-4o 的视觉版或 LLaVA。它们能回答关于图像的问题。
  • VLA (Vision-Language-Action Model, 视觉-语言-动作模型): VLM 的进化版,输出不仅仅是文本,还包括机器人的控制指令(如机械臂的移动坐标 x, y, z 和夹爪开合)。OpenVLA 是本文使用的基础模型。
  • OOD (Out-of-Distribution, 分布外): 指测试时遇到的数据与训练数据有显著差异。例如,训练时桌布是白色的,测试时桌布变成了花纹的;或者训练时只有苹果,测试时出现了从未见过的梨。
  • Fine-tuning (微调): 在一个预训练好的大模型基础上,使用特定任务的数据(这里是机器人操作数据)进行进一步训练,使其适应新任务。
  • Attention Map (注意力图): 可视化 Transformer 模型在处理信息时“关注”图像中哪些区域的热力图。理想情况下,当指令是“拿苹果”时,高亮区域应集中在苹果上。
  • Representation Collapse (表征坍塌): 指模型将原本丰富多样的特征(如区分不同种类的杯子)压缩成了单一、模糊的特征,导致模型失去了区分细微差别的能力。

3.2. 前人工作与差异

  • RT-1 / RT-2: 早期的 VLA 模型,证明了将 VLM 用于机器人的可行性。
  • OpenVLA: 本文基于的开源 VLA 模型。
  • 差异: 之前的方法(如 Freeze 基线)试图通过冻结视觉编码器来保留视觉能力,但本文发现这种做法会导致视觉特征与动作策略无法协同工作(即“失配”),导致性能极差。本文的方法允许视觉编码器更新,但通过“教师”模型进行约束,兼顾了适应性和通用性。

4. 方法论

4.1. 方法原理:视觉表征对齐

本文的核心思想源于 柏拉图表征假说 (Platonic Representation Hypothesis):所有强大的视觉模型最终都会收敛到一个共享的、反映现实世界统计规律的表征空间。

在 VLA 微调过程中,模型倾向于为了适应狭窄的机器人数据而“走捷径”,破坏了这个通用的表征空间。作者的方法是引入一个“教师 (Teacher)”(一个强大的、冻结的通用视觉模型),在微调 VLA(学生)时,强制 VLA 的内部视觉特征不要偏离教师太远。

下图(原文 Figure 1)展示了这一方法的概览:中间层的 VLA 特征被投影并与教师嵌入对齐,从而保留视觉语义。

Figure 1: Visual alignment method overview. Mid-level VLA features are projected onto a normalized sphere and aligned with teacher embeddings, preserving visual semantics and improving OOD generalization. Bottom plots show comparison with standard SFT across three generalization axes on the Simpler-based benchmark \[33\]. 该图像是示意图,展示了视觉对齐方法的概述。中间的VLA特征通过投影器投影到一个标准化的球面上,与视觉教师的嵌入对齐,从而保持视觉语义并改善对分布外(OOD)场景的广泛性。底部的图表比较了标准软调(SFT)与对齐SFT在三个广泛性轴上的表现。

4.2. 核心方法详解 (逐层深入)

该方法将标准的 VLA 训练过程与一个辅助的对齐目标相结合。

步骤 1: 提取教师特征 (Teacher Features)

首先,使用一个预训练好的、参数冻结的通用视觉编码器(称为教师,记为 EimgE^{\star}_{\mathrm{img}},例如 C-RADIOv3 模型)。 输入一张图像 II,教师模型将其编码为一系列的视觉补丁(patches)特征: z1:k=Eimg(I)Rk×dt z_{1:k} = E^{\star}_{\mathrm{img}}(I) \in \mathbb{R}^{k \times d_t}

  • 符号解释:
    • z1:kz_{1:k}: 教师模型输出的 kk 个视觉词元(tokens)的特征序列。
    • dtd_t: 教师模型特征的维度(例如 768)。
    • 这些特征代表了通用的、高质量的视觉语义(如“这是一个红色的球”)。

步骤 2: 提取学生特征与投影 (Student Features & Projection)

同时,VLA 模型(作为学生)也在处理同一张图像。我们从 VLA 的 中间层(记为层 ii^{\star})提取对应的视觉特征 h1:kih^{i^{\star}}_{1:k}。 由于 VLA 的内部维度 ded_e(例如 4096)通常与教师的维度 dtd_t 不同,我们需要一个 投影器 (Projector) PφP_{\varphi} 来将两者映射到同一空间: u1:k=Pφ(h1:ki) u_{1:k} = P_{\varphi}(h^{i^{\star}}_{1:k})

  • 关键细节: 作者发现使用一个 冻结的 MLP (Frozen MLP) 作为投影器效果最好。如果投影器是可训练的,模型可能会“作弊”(只调整投影器参数来降低损失,而不改善 VLA 本身的表征)。

步骤 3: 计算对齐损失 (Alignment Loss)

为了让 VLA 的视觉理解不退化,我们希望学生特征 uu 与教师特征 zz 尽可能相似。作者使用了 负余弦相似度 (Negative Cosine Similarity) 作为损失函数: Lalign=1kj=1kSim(uj,zj) \mathcal{L}_{\mathrm{align}} = - \frac{1}{k} \sum_{j=1}^{k} \mathsf{Sim}(u_j, z_j)

  • 符号解释:
    • Sim(uj,zj)\mathsf{Sim}(u_j, z_j): 计算向量 uju_jzjz_j 之间的余弦相似度。
    • \sum: 对所有 kk 个视觉补丁求平均。
    • 物理含义: 最小化这个损失,就是强制 VLA 在处理图像的每一个局部区域时,其理解方式都要向通用的视觉教师靠拢。

步骤 4: 联合优化 (Total Objective)

最终的训练目标是将标准的 VLA 动作预测损失(通常是交叉熵损失)与对齐损失相结合: Ltotal=LVLA+λLalign \mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{VLA}} + \lambda \mathcal{L}_{\mathrm{align}}

  • 符号解释:
    • LVLA\mathcal{L}_{\mathrm{VLA}}: 机器人预测下一个动作 token 的标准损失。

    • λ\lambda: 平衡系数,用于控制对齐的重要性(实验中设为 0.2)。

      下图(原文 Figure 2)展示了优化过程:在优化动作目标的同时,通过正则化保持 VL 理解能力。

      该图像是示意图,展示了如何从视觉教师中提取特征、进行细调以及损失函数的景观。图中包含了三个部分:a) 从视觉教师生成特征,b) 使用正则化损失进行细调,c) 损失景观,展示了在不同任务中的对齐和优化过程。 该图像是示意图,展示了如何从视觉教师中提取特征、进行细调以及损失函数的景观。图中包含了三个部分:a) 从视觉教师生成特征,b) 使用正则化损失进行细调,c) 损失景观,展示了在不同任务中的对齐和优化过程。

5. 实验设置

5.1. 数据集与任务

  • 仿真环境: 使用基于 Simpler 基准的 WidowX 机械臂仿真环境。

  • 训练数据: 收集了 1400 条专家演示轨迹,使用 MPLib 生成。包含 16 种桌子纹理和 16 种物体。

  • VL-Think 任务套件: 作者设计了一组专门用于诊断 VLA 视觉-语言能力的特定任务(见下图 Figure 3),这些任务要求机器人根据指令(如“放在红色的形状上”、“放在交通标志上”)将物体放到正确的面板上。这些任务侧重于语义理解而非动作难度。

    该图像是示意图,展示了不同任务的执行指令,包括形状、颜色、洗衣、奇偶性、公共信息、交通、天气和箭头等任务,图中显示了一个夹具正在将一个胡萝卜放置在相应的图标上。 该图像是示意图,展示了不同任务的执行指令,包括形状、颜色、洗衣、奇偶性、公共信息、交通、天气和箭头等任务,图中显示了一个夹具正在将一个胡萝卜放置在相应的图标上。

5.2. 评估指标

  • 任务成功率 (Success Rate, SR):

    • 概念定义: 机器人在一集(Episode)结束时是否成功完成了指令要求的任务(如将胡萝卜正确放置在目标图片上)。
    • 数学公式: SR=NsuccessNtotal SR = \frac{N_{\text{success}}}{N_{\text{total}}}
    • 符号解释:
      • NsuccessN_{\text{success}}: 成功完成任务的次数。
      • NtotalN_{\text{total}}: 总测试次数(本文中每个变体测试 128 次)。
  • 线性探测准确率 (Linear Probing Accuracy):

    • 概念定义: 用于量化特征的质量。冻结模型的主干,只训练一个简单的线性分类器来对 ImageNet-100 图片进行分类。准确率越高,说明模型提取的视觉特征越好、越通用。

5.3. 对比基线

  • Default (SFT): 标准的监督微调,不加任何对齐约束。这是目前 VLA 训练的主流方法。
  • Freeze: 在微调过程中冻结 VLA 的视觉编码器,只训练语言主干和动作头。这是一种常见的防止遗忘的策略。
  • Align (Ours): 本文提出的视觉表征对齐方法。

6. 实验结果与分析

6.1. 核心结果分析:分布外泛化

表 1 展示了不同方法在三个泛化维度(语义、视觉、执行)上的表现。 结果解读:

  1. Default (SFT) 的局限: 标准微调在训练分布内表现尚可,但在面对强烈的视觉干扰(VisionImg)或复杂的语义指令时表现下降。

  2. Freeze 的彻底失败: 简单地冻结视觉编码器导致成功率接近于 0。这说明视觉特征必须与动作策略共同适应(Co-adapt),强行割裂会导致两者无法“对话”。

  3. Align (Ours) 的全面领先: 本文方法在几乎所有指标上都优于 Default。特别是在 语义 (Semantic)视觉 (Vision) 的 OOD 测试中,对齐方法显著提升了模型的鲁棒性。

    以下是原文 Table 1 的结果:

    Method Semantic (语义泛化) Vision (视觉泛化) Execution (执行泛化)
    Carrot Instruct MultiCarrot MultiPlate Plate VisionImg Tex03 Tex05 Whole03 Whole05 Position EEPose PosChangeTo
    Default 0.49±0.02 0.74±0.02 0.28±0.02 0.43±0.02 0.73±0.02 0.81±0.01 0.67±0.01 0.55±0.03 0.71±0.02 0.56±0.01 0.43±0.02 0.34±0.01 0.23±0.01
    Freeze 0.03±0.01 0.05±0.01 0.01±0.01 0.02±0.01 0.03±0.01 0.02±0.01 0.03±0.01 0.01±0.01 0.01±0.01 0.01±0.01 0.03±0.01 0.03±0.01 0.04±0.01
    Align (ours) 0.61±0.01 0.83±0.03 0.35±0.02 0.49±0.02 0.75±0.01 0.86±0.02 0.70±0.02 0.67±0.02 0.80±0.02 0.60±0.02 0.58±0.02 0.38±0.02 0.20±0.03

(注:表中数据格式为 Mean ± SD,Vision 列下的空白单元格代表原文该处未提供数据或格式合并)

6.2. 诊断性分析:注意力与表征

注意力图 (Attention Maps)

下图(原文 Figure 4 和 Figure 6)直观地展示了“注意力汇聚 (Attention Sink)”现象。

  • Default OpenVLA SFT: 注意力非常发散,甚至聚焦在背景噪音上(图 4 右侧,图 6 中间)。这就是为什么它容易受到视觉干扰的原因。

  • OpenVLA Align (Ours): 注意力重新聚焦到了与指令相关的物体上(如汉堡或法棍),恢复了类似 VLM 的视觉定位能力。

    Figure 4: Attention map comparison: the strongest and most semantically grounded attention appears around middle layers. OpenVLA fine-tuned with our proposed method (OpenVLA Align) maintains object-aligned focus in attention maps, while default OpenVLA SFT shows diffused and noisy patterns, indicating loss of visual-language grounding (for more results see Appendix Figure 6). 该图像是注意力图比较,展示了不同层级的注意力分布。OpenVLA SFT 在中间层表现出分散和噪声的模式,表明视觉-语言对接的丧失,而采用我们提出的方法(OpenVLA Align)的模型则在注意力图中保持了对象对齐的焦点。

表征坍塌 (t-SNE)

下图(原文 Figure 5)使用 t-SNE 可视化了不同物体(杯子、瓶子、刀)的特征分布。

  • OpenVLA (Default): 不同物体的特征簇混杂在一起(重叠严重),说明模型难以区分这些物体,发生了表征坍塌。

  • PrismaticVLM / Qwen2.5-VL: 类别清晰分离。

  • 这也通过 线性探测 (Linear Probing) 实验得到证实(Table 3)。Align 方法的特征分类准确率(82.13%)显著高于 SFT(77.48%),甚至高于预训练模型(79.88%),逼近教师模型。

    Figure 5: t-SNE visualization of token embeddings for Qwen2.5-VL, PrismaticVLM, and OpenVLA. While PrismaticVLM and Qwen2.5-VL maintains well-separated clusters for target objects, OpenVLA shows huge overlap across classes, indicating that action fine-tuning causes representations collapse. 该图像是图表,展示了 Qwen 2.5-VL、PrismaticVLM 和 OpenVLA 三个模型在不同层次的 token 嵌入的 t-SNE 可视化。图中显示,Qwen 2.5-VL 和 PrismaticVLM 在各层次上维持了良好的类分离,而 OpenVLA 则在各类之间出现显著重叠,表明动作微调导致了表示的崩溃。

6.3. 消融实验

作者通过消融实验(Ablations)验证了设计的合理性:

  1. 教师模型的选择: 使用更强的教师(如 C-RADIOv3)比使用较弱的教师(如 SigLIP)效果更好。这也验证了柏拉图表征假说:对齐的目标越接近“真理”,效果越好。
  2. 对齐层级: 对齐 中间层 (Middle layers) 效果最好。这是因为底层关注低级纹理,高层关注具体动作,而中间层是视觉与语言语义融合的关键区域。
  3. 投影器: 冻结的 MLP 优于可训练的 MLP。因为冻结强迫 VLA 改变自身来适应教师,而不是调整投影器来“欺骗”损失函数。

7. 总结与思考

7.1. 结论总结

本文有力地证明了:“不要让你的 VLA 失明”

  1. 标准的机器人动作微调会以牺牲通用视觉理解为代价,导致表征坍塌和注意力发散。
  2. 通过引入一个冻结的、强大的视觉教师,并在微调过程中强制对齐中间层特征,可以有效地修复这种退化。
  3. 这种方法简单(仅增加一个损失项)、高效(推理时无需教师模型),且显著提升了机器人在面对新物体、新背景和新指令时的泛化能力。

7.2. 局限性与未来工作

  • 局限性:
    • 数据规模: 实验主要在微调阶段进行,且数据集规模相对较小(1400条轨迹)。未验证在大规模机器人预训练(Pre-training)阶段该方法的有效性。
    • LoRA 限制: 实验使用了 LoRA(低秩适应)进行微调,这可能限制了模型恢复那些在微调数据中完全缺失的罕见概念的能力(如某些抽象符号)。
  • 未来工作: 作者建议扩大数据广度,并探索放宽参数效率限制(如全量微调)是否能进一步解锁更多领域的泛化能力。

7.3. 个人启发与批判

  • 启发: 这篇论文提供了一个非常典型的 “持续学习” (Continual Learning) 视角的解决方案。在具身智能中,我们往往过于关注“学会动作”,而忽视了“保持感知”。这种利用“教师信号”作为正则化项的思想,可以广泛应用于任何需要从通用大模型迁移到特定小领域的场景,不仅仅是机器人,也包括医疗或法律领域的 LLM 微调。
  • 批判: 虽然方法有效,但依赖于一个外部的“教师”模型在训练时会增加显存开销(尽管推理时不需要)。此外,选择哪一层进行对齐目前还是经验性的(Middle layers),未来如果能有自适应的方法来动态选择对齐层级,可能会更加优雅。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。