论文状态：已完成

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting

发表：2025/09/26

视觉语言动作模型 (33)视觉语言模型微调 (2)防止灾难性遗忘 (1)低秩适配方法 (1)机器人遥操作数据 (1)

价格：0.100000

已有 4 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

该论文介绍了一种将视觉-语言模型（VLMs）微调为视觉-语言-行动模型（VLAs）的方法，称为VLM2VLA。通过将低层机器人动作用自然语言表述，解决了VLM与机器人数据分布不匹配的问题。该方法有效避免了灾难性遗忘，保持了模型的基本推理能力，在真实实验中实现了零样本泛化。

摘要

Fine-tuning vision-language models (VLMs) on robot teleoperation data to create vision-language-action (VLA) models is a promising paradigm for training generalist policies, but it suffers from a fundamental tradeoff: learning to produce actions often diminishes the VLM's foundational reasoning and multimodal understanding, hindering generalization to novel scenarios, instruction following, and semantic understanding. We argue that this catastrophic forgetting is due to a distribution mismatch between the VLM's internet-scale pretraining corpus and the robotics fine-tuning data. Inspired by this observation, we introduce VLM2VLA: a VLA training paradigm that first resolves this mismatch at the data level by representing low-level actions with natural language. This alignment makes it possible to train VLAs solely with Low-Rank Adaptation (LoRA), thereby minimally modifying the VLM backbone and averting catastrophic forgetting. As a result, the VLM can be fine-tuned on robot teleoperation data without fundamentally altering the underlying architecture and without expensive co-training on internet-scale VLM datasets. Through extensive Visual Question Answering (VQA) studies and over 800 real-world robotics experiments, we demonstrate that VLM2VLA preserves the VLM's core capabilities, enabling zero-shot generalization to novel tasks that require open-world semantic reasoning and multilingual instruction following.

思维导图

论文精读

中文精读约 19 分钟读完 · 10,744 字

1. 论文基本信息

1.1. 标题

Actions as Language: Fine-Tuning VLMs into VLAs Without Catastrophic Forgetting（将动作表述为语言：在不发生灾难性遗忘的前提下把视觉-语言模型微调为视觉-语言-行动模型）

1.2. 作者

Asher J. Hancock, Xindi Wu, Lihan Zha, Olga Russakovsky, Anirudha Majumdar
隶属：普林斯顿大学（机械与航天工程系、计算机科学系）

1.3. 发表期刊/会议

arXiv 预印本（尚无指向特定会议/期刊的正式出版说明）

1.4. 发表年份

2025 年（arXiv 提交时间：2025-09-26）

1.5. 摘要

论文关注如何把预训练的视觉-语言模型（VLMs）微调为视觉-语言-行动模型（VLAs），而不损害 VLM 的基础视觉与语义推理能力（即避免“灾难性遗忘”）。作者指出主因是：机器人遥操作数据的低层行动空间与 VLM 互联网预训练语料的分布严重不匹配。为此，提出 VLM2VLA：先在数据层面对齐，将低层动作“翻译”为自然语言描述，使微调样本更贴近 VLM 的原始表示分布；随后仅用低秩适配（LoRA）进行参数高效微调，从而尽可能少地扰动主干网络（backbone）参数、无需昂贵的与互联网规模 VLM 任务的联合训练（co-training）。在大量 VQA 测试与超过 800 次真实机器人实验中，VLM2VLA 在保持 VLM 基本能力的同时实现了对新任务的零样本泛化，包括开放世界语义推理与多语言指令遵循。

1.6. 原文链接

arXiv 页面: https://arxiv.org/abs/2509.22195
PDF: https://arxiv.org/pdf/2509.22195v1.pdf
项目主页（文中给出）: https://vlm2vla.github.io/
发表状态：arXiv 预印本

2. 整体概括

2.1. 研究背景与动机

问题：如何将大规模互联网数据上预训练的 VLM 微调成能输出机器人动作的 VLA，同时保留其强大的视觉-语言理解与推理能力。现有主流做法常需修改词表/结构或追加动作头并进行全参数微调，易导致对窄域机器人数据过拟合，出现灾难性遗忘（丢失开放世界知识、VQA 能力、多语言能力、对干扰的鲁棒性等）。
根因：微调数据（低层连续控制/离散动作符号化）与 VLM 预训练的数据分布（图文）差异大，迫使模型进行大幅参数更新，进而遗忘。
核心切入点：在数据层“化解”分布差异——把动作表示（特别是低层末端执行器移动、抓放等）直接用“语言”来表述，使训练分布与 VLM 预训练分布更一致，从而仅用 LoRA 即可有效适配、避免遗忘。

下图（原文 Figure 2）对比了传统 VLA 和 VLM2VLA 的差异：

该图像是示意图，展示了三种不同的模型响应同一问题的方式。左侧的Nominal VLM展示了基础视觉语言模型的推理能力，中心的Nominal VLA则显示了在训练数据中低级动作预测的过拟合，右侧的VLM2VLA则展示了如何通过对低级动作进行自然语言表示，保留了模型对潜在安全风险的推理能力。

2.2. 核心贡献/主要发现

方法：提出“动作即语言（actions as language）”的分层表示与数据重标注管线（使用 Gemini 2.5 自动把机器人示教轨迹转为高/中/低三层语言标注），并仅用 LoRA 微调 Gemma-3-12B-IT 等 VLM 成为 VLA。
发现：
1. VLM2VLA 在多项标准 VQA 基准上保留了大部分原始 VLM 能力（论文称保持>85%）。
2. 在真实机械臂（WidowX 250S）上的多项操作任务中，在分布内（ID）表现可与强基线相当；在分布外（OOD）任务（多语言指令、需要开放世界概念如“Ash Ketchum”）上显著领先，显示零样本泛化能力。
3. Ablation 显示：即使 LoRA 能缓解遗忘，动作表示方式仍影响泛化与 OOD 任务表现；“语言化动作”优于“最不可能词元映射”等离散化方案。

3. 预备知识与相关工作

3.1. 基础概念

视觉-语言模型（VLM, Vision-Language Model）：在互联网规模图文对（image-text pairs）上预训练的多模态生成模型，具备视觉理解、语义联想与语言生成能力（如 Prismatic VLM, Gemma-3-IT, Qwen2.5-VL 等）。
视觉-语言-行动模型（VLA, Vision-Language-Action Model）：在 VLM 基础上扩展到机器人控制，输入（图像+自然语言指令），输出（动作）。挑战在于将离散词元生成机制对接到连续控制。
灾难性遗忘（Catastrophic Forgetting）：在窄域任务上微调导致模型遗失原有广泛知识与能力（如 VQA、多语言理解、开放词汇识别）。
LoRA（Low-Rank Adaptation）：参数高效微调（PEFT）方法，通过为特定线性层引入低秩矩阵近似的增量更新，冻结原权重、仅更新少量新增参数，显著减少微调扰动与算力成本。
行动离散化/词表重映射（Action Tokenization）：将连续动作向量量化、映射到特定词元（一些工作使用“最不可能词元”保留主词表），把动作预测转为自回归的下一个词元预测。
链式思维（Chain-of-Thought, CoT）：先生成分解/计划/解释性中间步骤，再执行低层决策，有利于长任务推理与可解释性。
注意力（Attention）机制（为理解 Transformer 提供背景）：
概念上衡量 query 对不同 key 的相似度并对 value 加权，常见公式： $\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right)V$ 符号解释： $Q$ （查询）、 $K$ （键）、 $V$ （值）， $d_k$ 为键的维度。多头注意力将输入投影为多组 Q,K,V 并并行计算。

3.2. 前人工作

离散动作词元化流派：将连续动作映射为有限词元集合（如使用最不可能词元）并进行自回归生成（如 OpenVLA、FAST 等）。优点是与语言生成接口一致；缺点是词表/架构修改与全参微调易引发遗忘。
连续动作头流派：在 VLM 上加轻量动作头（如扩散模型、flow matching）直接回归连续动作（Octo, DexVLA, π0 等），但新增随机初始化参数会干扰预训练表示，且常需更复杂的训练与联合训练避免遗忘。
联合训练（Co-Training）：在机器人数据与大规模 VLM 数据混合训练（RT-2, MolmoAct, ChatVLA 等）以正则化、维持基础能力，但代价高、比例难调。
知识隔离与高级训练流程：如 MoE、stop-gradient、分阶段冻结等，减少动作模块梯度对 VLM 的破坏。

3.3. 技术演进与本文定位

技术从“全参微调+结构改造”逐步探索到“参数高效微调+联合数据正则化”再到“高级训练策略保护知识”。本文进一步前移到“数据层面对齐”：把动作用语言表达，让微调分布贴近预训练分布，从而仅用 LoRA 就能有效适配且保留能力，无需联合训练或新增解码头。

3.4. 差异化分析

与离散动作词元化：本文不重新分配保留词元或修改词表，而是直接使用自然语言（模型已熟悉）表达步进矢量与抓放。这降低“分布偏移”，使 LoRA 足以完成适配。
与连续动作头：本文不新增动作头，避免随机初始化模块破坏预训练表示。
与联合训练：本文无需额外互联网规模数据混合，训练更简单、成本更低。
与“仅 LoRA 但仍用动作词元”的 ablation：同样 LoRA，语言化动作在 OOD 任务表现显著更好，说明“数据对齐”是关键补充。

4. 方法论

4.1. 方法原理

核心直觉：LoRA 能减少对预训练表征的破坏，但前提是微调数据分布与预训练分布足够接近。传统 VLA 的动作空间（连续矢量或任意词元映射）与互联网图文分布差异巨大，导致需要更猛烈的参数更新。若把“动作转写为自然语言”，预测空间回到模型熟悉的词元与语义结构中，微调只需在局部表示上作低秩调整，即可建立从视觉—语言—动作的映射，同时保留世界知识与推理能力。

下图（原文 Figure 3）显示：在微调前，Gemma-3-12B-IT 对“语言化动作”的对数概率显著高于“映射到最不可能词元的动作标记”，从概率上印证“数据/表示对齐”的优势：

Figure 3 Distribution of action probabilities under Gemma-3-12B-IT before fine-tuning on robot teleoperation data. The model assigns significantly higher log-probabilities to actions represented as language compared to those defined by explicit tokenization modifications, e.g., least likely token assignment. 该图像是图表，展示了在 Gemma-3-12B-IT 模型上针对机器人遥控数据进行微调前，动作概率的分布情况。模型对以自然语言表示的动作分配了显著更高的对数概率，相较于通过明确标记修改定义的动作，后者的对数概率显著较低。

4.2. 分层表示：动作即语言（Actions as Language）

作者把每一步控制分解为三层、全部用语言表示和生成（高层/中层/低层），统一在 VLM 的词表与生成框架内：

高层子任务 $l_i$ ：给定观测 $o_i$ 与全局语言指令 $L$ ，先描述当前应执行的高层子任务（如“移动到胡萝卜”）。
中层运动规划 $m_i$ ：在子任务与观测条件下，生成空间性运动方案，使用方向性语言（如“向下、略向右”），充分利用 VLM 的空间-语言推理能力。
低层动作段 $\bar{a}_i$ ：在子任务与运动方案条件下，输出可直接执行的动作段（action chunk），以列表的语言化指令表示各自由度（本文仅考虑平移和夹爪开合）。

论文明确给出联合分布分解（原式照录如下）： $\begin{array} { r } { p _ { \theta } ( \bar { a } _ { i } , m _ { i } , l _ { i } | \bar { o } _ { i } , L ) = \underbrace { p _ { \theta } ( l _ { i } | \bar { o } _ { i } , L ) } _ { \mathrm { 1 ) ~ S u b t a s k } } \underbrace { p _ { \theta } ( m _ { i } | l _ { i } , \bar { o } _ { i } ) } _ { \mathrm { 2 ) ~ M o t i o n } } \underbrace { p _ { \theta } ( \bar { a } _ { i } | m _ { i } , l _ { i } , \bar { o } _ { i } ) } _ { \mathrm { 3 ) ~ A c t i o n } } , } \end{array}$
符号解释： $\theta$ 为策略参数（VLM+LoRA）， $\bar{o}_i$ 为观测（RGB 图像）， $L$ 为语言指令， $l_i$ 为高层子任务， $m_i$ 为中层运动规划， $\bar{a}_i$ 为低层动作段（语言化的 [dx, dy, dz, gripper] 序列）。

这种分解让整个策略成为一个标准的“多模态条件语言生成”问题：输入是图像+文本上下文（历史/子任务/运动方案），输出是下一段文本（动作段）。损失函数用标准交叉熵（cross-entropy）对齐目标文本。

4.3. 测试时流程（闭环 + 验证器）

初始时用第一张图预测全局子任务列表（一次性生成 $N$ 个子任务）；每个循环基于当前观测、当前子任务 $l_i$ 生成中层运动规划 $m_i$ ，再生成动作段 $\bar{a}_i$ 并执行。
执行后，引入外部“验证器”（Verifier，本文用 Gemini 2.5 Pro）对比执行前后观测与（当前/下个）子任务，判断是否完成当前子任务；若否则重试该子任务，否则进入下一个子任务。
该设计在噪声与误差下提升鲁棒性，但牺牲时延（详见 §5.5 与 §6.3）。

4.4. 数据管线：把机器人轨迹翻译成三层语言标注

输入数据：来自人类遥操作的轨迹 $\tau=\{(o_t, a_t)\}_{t=0}^T$ ，带主任务指令 $L$ ，仅 RGB 观测，无需关节角/绝对位姿（BridgeData v2 子集）。
自动标注：用 Gemini 2.5 将每条轨迹分解为 $N$ 个步骤，并给出子任务 $l_i$ 、运动方案 $m_i$ 、低层动作段 $\bar{a}_i$ 的语言化描述。为保证空间落地，提示中明确了机器人末端基坐标定义（+x 前、-y 右、+z 上、gripper∈{0 关, 1 开}）。
后处理：将细碎的微小步进合并成幅度更大的动作段，避免训练时输出趋近于零的小动作；并构造若干辅助监督（如“是否完成子任务”的正负例、“应向哪个方向移动”的分类信号）。

下图（原文 Figure 4）展示了数据管线：

$Figure 4 VLM2VLA's pipeline for annotating existing robot datasets $\\mathcal { D } _ { \\mathrm { r o b } }$ into $\\mathcal { D } _ { \\mathrm { l a n } }$ described via natural language. We use Gemini 2.5 \[3\] to decompose each trajectory into sub-trajectories, each with an associated subtask, motion plan, and action chunk.$ 该图像是示意图，展示了VLM2VLA的管道，将现有机器人数据集extbf{D}_{ ext{rob}}注释为自然语言描述的extbf{D}_{ ext{lan}}。使用Gemini 2.5对每个轨迹进行分解，生成子轨迹及其对应的子任务、运动计划和动作片段。

4.5. 训练细节

基座模型：Gemma-3-12B-IT（Instruction-Tuned VLM）。
优化：仅用 LoRA 适配所有线性模块（q/k/v/o 投影、MLP 上下投影、门控投影等），冻结原权重。损失用交叉熵。
框架：HuggingFace TRL + Accelerate + DeepSpeed ZeRO-2，BF16 精度，多卡训练，约 300 GPU 小时，一轮（epoch）即收敛到可用策略（详见附录超参表）。
消融：VLM2VLA-AT 将数字 0–9 映射为 Gemma-3 的 10 个“最不可能词元”解码文本，从而把动作也做成“保留词元”的离散生成；除动作表示不同外，其他训练配置一致，用以检验动作表示的重要性。

4.6. 视觉化与示例

总体思路图（原文 Figure 1）：

该图像是示意图，展示了VLM2VLA的数据管道和训练方法，旨在将视觉语言模型（VLM）微调为视觉语言行动（VLA），同时保持感知和推理能力。它说明了如何通过自然语言描述机器人数据以及各要素之间的关系，并突出了多模态理解与操作的能力。
多语言 OOD 示意（原文 Figure 7）：

该图像是一个示意图，展示了VLM2VLA模型如何将用户的指令转化为具体的子任务。根据用户的询问 ('gajar uthao'，意为'捡起胡萝卜')，模型生成了三项子任务：'移动到胡萝卜'、'抓取胡萝卜'和'将胡萝卜抬高'，强调了系统的多语种处理能力。
轨迹关键帧（原文 Figure 8）：

该图像是示意图，展示了观察次数在不同阶段的变化，分别为0、10、20和28次，呈现了机器人在执行任务过程中逐步收集的信息。

5. 实验设置

5.1. 数据集

训练数据：BridgeData v2（含自然语言主任务指令的子集），遥操作 RGB 观测 + 相对末端位移/夹爪动作序列。用 Gemini 2.5 自动生成三层语言标注与动作段，并进行后处理与增强，成本约 900 美元。
评测数据：
- 多模态理解（VQA）基准：MMMU、MMStar、MME、OCRBench、MMB-en、MMB-cn、TextVQA、DocVQA、InfoVQA、AI2D、ChartQA、RealWorldQA 等（按原文表格呈现）。
- 真实机器人操作：WidowX 250S，右侧第三人称 RealSense D435 相机，玩具厨房环境，任务涵盖 ID 与 OOD，多语言与开放世界语义。

5.2. 对比基线

OpenVLA（7B Prismatic VLM 上微调的大规模策略，基于 Open-X-Embodiment 数据）
ECoT（Embodied Chain-of-Thought，OpenVLA 变体，先生成推理轨迹再预测动作；本文同样仅在 BridgeData v2 上训练）
开源联合训练 VLA：MolmoAct、π0.5（用于 VQA 对比）
消融：VLM2VLA-AT（动作词元化），与 VLM2VLA 共享训练流程与数据

5.3. 评估指标

VQA 基准分数：各数据集原生指标，多为准确率（accuracy）或官方评分。通用定义（供理解）：
- 概念：衡量模型回答/识别正确的比例。
- 公式： $\mathrm{Accuracy}=\frac{\sum_{i=1}^{N}\mathbf{1}\{\hat{y}_i=y_i\}}{N}$ 符号： $N$ 为样本数， $y_i$ 为真值（Ground Truth）标签， $\hat{y}_i$ 为模型预测， $\mathbf{1}\{\cdot\}$ 为指示函数。
  注：具体数据集（如 DocVQA、ChartQA）可能采用其官方评分与预处理，本文复用其标准实现。
机器人任务成功率（Success Rate）：
- 概念：在一组推演（rollout）中达到任务成功条件的比例；部分任务采用“部分得分”量化阶段性完成度。
- 公式（成功率）： $\mathrm{SuccessRate}=\frac{\mathrm{\#~successful~trials}}{\mathrm{\#~total~trials}}$
- 公式（带部分得分的平均归一化得分）： $\mathrm{NormalizedScore}=\frac{1}{N}\sum_{i=1}^{N}\frac{s_i}{s_{\max}}$ 符号： $s_i$ 为第 $i$ 次试验的得分， $s_{\max}$ 为该任务定义的最高分， $N$ 为试验次数。
- 评分细则：文中详述了不同任务的部分得分标准（如“接触到目标物体”计部分分，“放到盘子上”再加分等），同时区分“规划型策略（如 ECoT/VLM2VLA）”是否写对了文本计划。

5.4. 推理与提示词（Prompting）

三阶段解码：子任务分解（温度 0.5/1.0 视 ID/OOD）、运动规划（温度 0.1）、动作段生成（温度 0.5）；Top-p=0.95。
Verifier（Gemini 2.5 Pro）提示明确“预条件判断”规则，严格对齐与夹爪居中等精度判据。
基线按其官方推荐提示格式做了同等程度优化。

5.5. 硬件与安全

机器人：WidowX 250S（6 DoF），固定初始位姿，带安全过滤（例如接触台面/墙面时向下/向前动作被抑制）。
每任务 30 次推演，位置与干扰物布局在定义范围内随机化。
延迟统计：A100 上测得单次“运动规划+动作段生成”中位数约 6.1 s，偶发重试会拉长到 >45 s（详见 §6.3）。

6. 实验结果与分析

6.1. 多模态理解（VQA）：保能力对比

以下是原文 Table 1 的结果（注意：源表排版存在合并/空列等不规则之处，现按原文逐元抄录为 HTML，以尽量忠实呈现其结构与内容）：

Method	#Params	MMMU	MMStar	MME OCRBench		MMB-en	MMB-cn TextVQA	DocVQA	InfoVQA	AI2D	ChartQA	RealWorldQA
Prismatic VLM Family
Prismatic VLM	7b	35.0	38.8	1456.6 32.0	66.2	55.7	42.5	17.5	19.7	54.6	16.7		30.8
OpenVLA ECoOT	7b	26.3	0	0	0		43.0 4.1	0	0	0	0	0
	7b	26.6	0	0 0.01	3.7			0	0	0	0	0	25.6
Gemma-3 Family (with VLM2VLA)
Gemma-3-4B-IT	4b	39.3		1205.8	70.2	68.6	64.3	61.5	68.8	40.9	70.5	50.3	44.0
Gemma-3-12B-IT	12b	46.0	37.1 46.3	1182.3	75.0	76.9	74.7	68.9	80.6	50.4	78.5	55.1	50.6
VLM2VLA-AT	12b	45.9	45.2	1082.2	65.5 70.9		66.8	64.2	74.6	44.8	74.1	41.8	44.5
VLM2VLA (Ours)	12b	42.7	48.0	1391.7 63.9	68.5		67.6	64.9	78.4	46.2	74.0	58.3	43.3
Open-Source Co-Trained VLAs
MolmoAct	7b	28.4	1.2	1224.5	52.7	55.1	46.3	57.5	58.7	41.9	2.0	55.9	8.6
π0.5	3b	24.0	21.7	1061.9	6.8	6.8	0.3	10.0	4.6	7.7	27.0	5.1	2.7

观察与结论：

OpenVLA/ECoT 相对其 Prismatic VLM 基座在 VQA 上普遍显著下降（灾难性遗忘）；而 VLM2VLA 在多项基准上“只小幅下降”，保持了强 VQA 能力。
与联合训练的 MolmoAct、π0.5 对比：VLM2VLA（12B）整体分数更高，显示无需联合训练也能保留能力且具竞争力（模型规模是混杂变量，需谨慎解读）。

6.2. 机器人操作：ID/OOD 表现

任务设置：
- ID：抓取胡萝卜（Pick Up）、把胡萝卜放到黄盘子（Pick & Place）
- 近 ID（组合长链）：把茄子放进平底锅再抬起鱼（Pick, Place, and Lift）
- OOD-多语言：西/中/印地语“捡起胡萝卜”
- OOD-开放语义：捡起“Ash Ketchum”上方的物体（需识别流行文化形象+空间关系）
结果趋势（文中 Figure 5/6/7 支撑）：
- ID：OpenVLA 在基础抓取/放置有优势（大规模数据学到更多通用抓取技巧），VLM2VLA 不落后太多。
- 组合长链：OpenVLA 往往完成第一步后卡住；ECoT 计划正确但执行偏弱；VLM2VLA 兼具正确分解与更稳定执行。
- OOD 多语言与开放语义：VLM2VLA 明显领先，其子任务分解常能“翻译并锁定胡萝卜”，或识别“Ash Ketchum”并执行正确空间关系；VLM2VLA-AT（动作词元化）在这些 OOD 任务显著落后。
  
  下图（原文 Figure 5）比较了各模型在五类任务上的成功率：
  
  该图像是一个示意图，展示了不同模型在机器人任务中的表现，包括 OpenVLA、ECoT、VLM2VLA-AT 和 VLM2VLA。图中展示了五种任务的表现百分比，其中 VLM2VLA 在多个任务中表现最佳，特别是在 'Pick Up - T' 和 'Pick Up - A' 任务中。

下图（原文 Figure 6）量化了在 OOD 任务上的“任务分解正确性”（识别正确物体/目的地即得分）：

Figure 6 Analysis of task decomposition for OOD manipulation tasks. Points are awarded if the model's task plan correctly identifies the task object, and task destination if present. See Appendix C.3 for additional details. 该图像是柱状图，展示了不同方法在 OOD 操作任务上的成功率（%）。ECoT、VLM2VLA-AT 和 VLM2VLA 的成功率分别为 93%、97% 和相应的任务对象。详细数据可见附录 C.3。

下图（原文 Figure 7）展示了 VLM2VLA 的零样本多语言能力示例：

Figure 7 A qualitative demonstration of VLM2VLA's zero-shot multilingual capabilities. Given the language instruction in Hindi ('pick up the carrot'), our model identifies the correct object amidst distractors (eggplant and banana), demonstrating a genuine understanding of the task. 该图像是一个示意图，展示了VLM2VLA模型如何将用户的指令转化为具体的子任务。根据用户的询问 ('gajar uthao'，意为'捡起胡萝卜')，模型生成了三项子任务：'移动到胡萝卜'、'抓取胡萝卜'和'将胡萝卜抬高'，强调了系统的多语种处理能力。

结论：VLM2VLA 在 OOD 条件下的优势，来自其更好地保留了 VLM 的多语言与开放世界知识，加之用语言表达的中层规划增强了可解释性与可控性；而动作语言化进一步减少了“语言世界”与“控制世界”的鸿沟。

6.3. 消融：动作表示的重要性与时延

VLM2VLA-AT（动作词元化）与 VLM2VLA 同为 LoRA 微调，VQA 能力都得以保留，说明“LoRA 可缓解遗忘”。但在机器人 OOD 任务，VLM2VLA-AT 明显落后，表明“动作如何表示”对“把 VLM 世界知识转化为可执行控制”至关重要。“语言化动作”更自然接入了模型的数值概念与空间语言表示。
推理时延（原文 Table 3）：单周期（运动规划+动作生成）中位数约 6.1s，重试与输出格式问题会拉长尾部；提示未来应优化解码/缓存/鲁棒输出格式，或让验证器内化到单模型中减少交互。

以下是原文 Table 3 的结果（原表存在明显排版/内容错位，现忠实抄录，提醒读者注意其不一致性）：

Statistic

Median

Mean (Average)

10.5 [s] Standard Deviation 14.3 [s]

Interquartile Range (IQR) 5.0 - 6.7 [s]

3.8 [s]

48.8 [s]

（按论文正文解读：中位数约 6.1 s，标准差约 14.3 s，存在 >45 s 长尾个例，IQR 较小。）

7. 总结与思考

7.1. 结论总结

提出 VLM2VLA：把“机器人动作表示语言化”，用数据层面对齐化解 VLM 预训练分布与机器人微调分布的错配，仅用 LoRA 即可有效适配成 VLA。
保能力：在多项 VQA 基准上仅轻微下降，显著优于常见的结构改造+全参微调方案。
控制与泛化：在真实机器人实验中，ID 表现可与强基线媲美；在 OOD（多语言/开放语义/组合长链）上显著领先，展示零样本泛化与多语种指令理解。
消融：即使都用 LoRA，动作语言化在 OOD 控制任务明显优于“最不可能词元映射”，说明数据表示与预训练分布对齐的关键性。

7.2. 局限性与未来工作（论文所述）

时延：自回归三阶段生成+外部验证器，单周期 6 s 量级；需更快的解码/缓存策略或把验证内化。
任务范围：当前仅做平移与夹爪开合，旋转与精细操作未覆盖；中层规划文字较粗糙，未来可更细粒度。
跨机体泛化：当前限于特定机械臂与控制接口；作者设想用语言作为“通用中介”描述不同机体动作，潜在实现跨机体策略。
验证器依赖：目前用外部 Gemini 作为 verifier，未来希望把该能力融入单模型闭环。
规模化：计划用更大机器人数据集按本文流程扩展，进一步提升开放世界泛化与指令遵循。

7.3. 个人启发与批判性思考

数据层对齐的普适性：本文的核心思想（把低层控制语言化）在其它嵌入式/控制任务中也可能有效，如移动机器人导航（“前进 X 米，左转 Y 度”）或多臂协作（“右臂保持 X，左臂下压 Z”），值得系统性探究“语言化中间表征”的上限与边界。
精度与可微性：语言化动作的优点是对齐预训练分布与可解释，但连续控制的“精度/稳定性/可微优化”可能受限于离散文本解码，如何在保证精度的同时保持语言桥梁，是重要开放问题（例如把语言与可微控制器以可学习接口耦合）。
标注质量与成本：依赖强大闭源模型（Gemini）进行大规模自动标注，标注一致性、偏差与可复现性是潜在风险；但作者报告了抽查与成本，未来可探索开源替代或自监督对齐。
评测覆盖与难度：OOD 任务虽有代表性，但总体规模相对有限，且使用特定环境与物体集。更大规模、多机体、多场景、多语言的系统性评测将更有说服力。
安全与稳健：虽然引入验证器与安全过滤，但真实世界中视觉误差、遮挡、动力学不确定性与故障恢复仍是严峻挑战。将“语言化规划+闭环视觉状态估计+安全约束”统一到端到端框架值得进一步研究。
与联合训练的关系：本文展示了“无需联合训练也能保能力并具竞争力”，但两者并不互斥。把“语言化动作”与“适度联合训练/对比学习/指令合成”结合，可能进一步提高跨域泛化与鲁棒性。

——

附：与方法/数据直接相关的原文图表在上文对应位置引用；部分复杂表（Table 1、Table 3）按原文不规则结构用 HTML 逐元转录，读者在对比具体数值时应结合正文叙述理解。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。