论文状态：已完成

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models

发表：2025/08/04

多任务机器人操作 (4)视觉语言动作模型的上下文适应性 (1)无参数微调的新任务学习 (1)机器人示范数据集 (1)上下文学习注入 (1)

原文链接 PDF 下载

价格：0.100000

已有 2 人读过

本分析由 AI 生成，可能不完全准确，请以原文为准。

TL;DR 精炼摘要

本文提出RICL框架，通过特定微调方案为预训练视觉-语言-动作（VLA）模型注入上下文自适应能力，允许用户仅用10-20个演示任务提升模型性能，而不需进行参数微调，显著降低了用户的使用门槛。

摘要

Multi-task ``vision-language-action'' (VLA) models have recently demonstrated increasing promise as generalist foundation models for robotics, achieving non-trivial performance out of the box on new tasks in new environments. However, for such models to be truly useful, an end user must have easy means to teach them to improve. For language and vision models, the emergent ability to perform in-context learning (ICL) has proven to be a versatile and highly useful interface to easily teach new tasks with no parameter finetuning. Unfortunately, VLAs pre-trained with imitation learning objectives do not naturally acquire ICL abilities. In this paper, we demonstrate that, with the right finetuning recipe and a small robot demonstration dataset, it is possible to inject in-context adaptability post hoc into such a VLA. After retraining for in-context learning (RICL), our system permits an end user to provide a small number (10-20) of demonstrations for a new task. RICL then fetches the most relevant portions of those demonstrations into the VLA context to exploit ICL, performing the new task and boosting task performance. We apply RICL to inject ICL into the $π_{0}$ -FAST VLA, and show that it permits large in-context improvements for a variety of new manipulation tasks with only 20 demonstrations per task, without any parameter updates. When parameter updates on the target task demonstrations is possible, RICL finetuning further boosts performance. We release code and model weights for RICL- $π_{0}$ -FAST alongside the paper to enable, for the first time, a simple in-context learning interface for new manipulation tasks. Website: https://ricl-vla.github.io.

思维导图

论文精读

中文精读约 10 分钟读完 · 5,278 字

1. 论文基本信息

1.1. 标题

RICL: Adding In-Context Adaptability to Pre-Trained Vision-Language-Action Models （RICL：为预训练的视觉-语言-动作模型增加上下文自适应能力）

1.2. 作者

Kaustubh Sridhar (宾夕法尼亚大学)、Souradeep Dutta (英属哥伦比亚大学)、Dinesh Jayaraman (宾夕法尼亚大学)、Insup Lee (宾夕法尼亚大学)。作者背景涵盖了机器人学、形式化方法和人工智能领域。

1.3. 发表期刊/会议

该论文提交至相关顶级机器人或人工智能会议（如 CoRL, ICRA 或 ICLR），目前以预印本形式发布于 arXiv。其引用的 $π_0$ 和 OpenVLA 等工作均属于当前机器人大模型领域的最前沿研究。

1.4. 发表年份

2025年8月4日（UTC发布时间）。

1.5. 摘要

尽管多任务“视觉-语言-动作”（VLA）模型作为机器人基础模型展现出巨大潜力，但它们通常缺乏上下文学习 (In-Context Learning, ICL) 的能力。这意味着要让模型学习新任务，通常需要进行参数微调，这对于普通终端用户来说门槛较高。本文提出了 RICL (Retraining for In-Context Learning)，通过一种特定的微调方案，将上下文自适应能力注入到现有的预训练 VLA 模型中。经过 RICL 处理后的系统允许用户仅提供 10-20 个新任务演示，系统通过检索机制将相关片段放入上下文，无需任何参数更新即可提升性能。

1.6. 原文链接

原文链接: https://arxiv.org/abs/2508.02062
PDF 链接: https://arxiv.org/pdf/2508.02062v1.pdf
发布状态: 预印本 (v1)。

2. 整体概括

2.1. 研究背景与动机

当前机器人领域正在经历从单一任务模型向通用的视觉-语言-动作模型 (VLA) 的转型。然而，这些模型面临一个核心局限：

缺乏灵活性: 预训练的 VLA 模型（如 $π_0$ ）虽然在训练集内表现良好，但在面对全新的物体、动作或环境时，往往需要昂贵的梯度下降微调（Fine-tuning）才能提升。
对比 LLM 的差距: 大语言模型（LLM）具备强大的上下文学习 (In-Context Learning, ICL) 能力，只需给它几个例子（Few-shot），它就能学会新任务。但现有的 VLA 模型大多采用模仿学习目标训练，这种训练方式并没有让模型产生这种“涌现”出的 ICL 能力。

核心问题: 如何在不进行大规模重构的前提下，事后（post hoc）为预训练好的 VLA 模型注入像 LLM 那样的上下文适应能力？

2.2. 核心贡献/主要发现

提出了 RICL 框架: 这是一种针对 VLA 模型的后置训练（Post-training）方案，专门用于诱导模型利用上下文中的参考信息。
引入 RAG 机制到机器人: 结合了检索增强生成 (Retrieval-Augmented Generation, RAG)，模型能自动从少量演示中检索最相关的状态-动作对，辅助当前决策。
实现了高效的“动作插值”: 引入了一个轻量级的动作插值层，平衡模型自身的预测和检索到的参考动作。
实验验证: 在 $π_0$ -FAST 基础模型上，仅通过 20 个演示且不更新参数，就在包含新物体、新动作和新场景的任务中取得了显著的性能提升。

3. 预备知识与相关工作

3.1. 基础概念

视觉-语言-动作模型 (Vision-Language-Action, VLA): 一种端到端模型，输入图像和文字指令，直接输出机器人的控制动作（如关节速度）。
上下文学习 (In-Context Learning, ICL): 指模型不需要更新权重参数，仅通过输入提示词（Prompt）中包含的示例就能完成新任务。
检索增强生成 (Retrieval-Augmented Generation, RAG): 原本用于文本生成，指在推理时先从数据库检索相关信息，再把信息喂给模型。在本文中，检索的是“机器人过去成功的操作演示”。
推演 (rollout): 指机器人在环境中实际执行一次完整任务的过程，包括从感知到决策再到动作的连续循环。

3.2. 前人工作

$π_0$ 与 $π_0$ -FAST: 这是当前最先进的 VLA 基础模型。 $π_0$ -FAST 使用了高效的动作词元化（Action Tokenization）技术，将连续的机器人动作转换为离散的符号，使其能像处理文本一样处理动作。
REGENT: 本文的重要灵感来源。REGENT 证明了在模拟器中从头训练一个具备 RAG 能力的智能体是可行的，但 RICL 的创新在于如何将其应用到已预训练好的真实世界大规模模型上。

3.3. 技术演进与差异化

传统的机器人学习路径是：预训练 -> 收集新数据 -> 微调参数 -> 部署。 RICL 的路径是：预训练 -> RICL 注入 ICL 能力 -> (部署阶段) 收集少量演示 -> 放入上下文 -> 立即生效。其核心差异在于无需微调即可适应新任务，极大降低了用户的使用成本。

4. 方法论

4.1. 方法原理

RICL 的核心思想是：将 VLA 模型的输入从“当前状态”扩展为“当前状态 + 从参考演示中检索到的相关状态”。通过一种特殊的微调（本文称为“启动/启动式训练 (Priming)”），教会模型：“看，上下文里的这些例子和你现在的处境很像，请参考它们的动作来修正你的预测。”

4.2. 核心方法详解 (逐层深入)

4.2.1. 架构概览与输入构建

如下图（原文 Figure 2）所示，RICL-VLA 的输入由“查询 (Query)”和“检索到的邻居 (Retrieved Neighbors)”组成。

$Figure 2: Architecture of RICL-VLAs, specifically that of RICL- $\\pi _ { 0 }$ -FAST.$ 该图像是图示，展示了 RICL- $ext{π}_0$ -FAST 模型的架构。图中显示了大型语言模型的初始结构，以及如何通过检索演示和 DINO 的加权动作插值层来实现任务。左侧部分是模型的输入图像嵌入，右侧则为输出和查询流程。

查询信息 (Query): 包含当前时刻 $t$ 的三路图像（顶部、侧面、腕部）、任务语言指令以及机器人自身的本体感知状态 $s_t$ （如关节角度）。
检索过程: 系统使用一个冻结的词元化图像编码器 DINO-v2 将当前顶部图像编码，并在演示数据库（包含 10-20 个成功演示）中计算 $l_2$ 距离，找出最相似的 4 个状态。
序列拼接: 将检索到的状态-动作对（标记为 s', a', s'', a'' 等）作为前缀，与当前查询拼接后喂给大型语言模型（LLM，如 Gemma-3B）。

4.2.2. 动作插值层 (Action Interpolation Layer)

为了防止模型过度依赖检索结果或完全忽略检索结果，RICL 引入了一个关键的数学层。模型最终输出的动作预测 $\pi_{\mathrm{RICL-VLA}}^{\theta}$ 并不是直接由 LLM 生成的，而是通过以下公式进行加权融合：

$\pi_{\mathrm{RICL-VLA}}^{\theta}(\mathrm{retrieved, query}) = e^{-\lambda d} \mathrm{one\text{-}hot}(a') + (1 - e^{-\lambda d}) \sigma(\pi_{\theta}(\mathrm{retrieved, query}))$

符号解释：

$\pi_{\mathrm{RICL-VLA}}^{\theta}$ : RICL-VLA 最终输出的动作概率分布。
$d$ : 当前查询图像与最接近的检索图像之间的 $l_2$ 距离。
$\lambda$ : 一个超参数，控制模型对距离的敏感度。
$a'$ : 检索到的最邻近动作（Nearest Neighbor action）。
$\mathrm{one\text{-}hot}(a')$ : 将检索到的动作转换为概率分布形式（即在对应动作上的概率为 1）。
$\pi_{\theta}(\mathrm{retrieved, query})$ : LLM 在给定上下文后输出的原始预测值。
$\sigma$ : Softmax 函数，将 LLM 的输出转化为概率。
$e^{-\lambda d}$ : 权重因子。如果 $d$ 很小（表示检索到的参考非常精准），该值趋近于 1，模型更多地直接“抄袭”参考动作；如果 $d$ 很大（检索不到相似动作），该值趋近于 0，模型依靠自身的推理能力。

4.2.3. 训练目标 (Training Objective)

在 RICL 的“启动 (Priming)”阶段，模型在 20 个基础任务上进行训练。与 REGENT 不同，RICL 仅最小化当前查询动作的交叉熵损失（Cross-Entropy Loss），而不优化检索动作的损失。这样做可以保护预训练模型的原有知识。

5. 实验设置

5.1. 数据集

启动训练数据集 (Priming Data): 作者手动收集了 20 个基础拾取任务（如“移动苹果到右侧”），每个任务 20 个演示，共 400 个演示。用于教会模型如何使用上下文。
评估任务 (Evaluation Tasks):
- 新物体: 宝可梦球 (Pokeball)、印度米饼盘 (Idli plate)、刮水器 (Squeegee)。
- 新动作: 拖动刮水器、特殊的抓取角度。
- 新场景: 厨房水槽。
- 长尾任务: 压下烤箱开关、打开底层橱柜门。
  
  下图（原文 Figure 6）展示了实验中使用的各种新物体：
  
  该图像是实验环境的展示，其中包含多种物品，如塑料碗、玩具鸭、调料瓶等，布局在桌面上。右侧为一台冰箱和其他厨房电器，标示了不同连接点，用于说明所需的演示操作。

5.2. 评估指标

完成任务成功率 (Complete Task Success Rate):
- 定义: 机器人从开始到完全达成最终目标（如物体入筐）的比例。
- 计算: $Success = \frac{\text{成功完成次数}}{\text{总尝试次数}}$ 。
路标点完成率 (Checkpoint Completion Rate):
- 定义: 将复杂任务分解为多个阶段（如：接近物体 -> 抓取 -> 移动 -> 放置），衡量机器人到达每个中间阶段的比例。这能反映即使任务最终失败，机器人是否走对了方向。

5.3. 对比基线

$π_0$ -FAST-DROID: 原始的、未经过 RICL 处理的强力 VLA 模型。
Retrieve and Play (R&P): 一种简单的基线，直接执行检索到的最相似动作，不经过模型推理。
Diffusion Policy: 从头训练的扩散策略。
RICL-Finetuned: 将 RICL 与传统微调结合的上限版本。

6. 实验结果与分析

6.1. 核心结果分析

下图（原文 Figure 4）展示了在多个极具挑战性的任务中，RICL 的表现显著优于原始模型。

该图像是一个图表，展示了不同任务的成功率及不同方法的比较。图中列出了六个任务的成功率，包括“捡起宝可梦球并放入托盘”、“将闲置盘子移至右侧”等。每个任务下方的柱形图分别展示了不同训练策略（如RICL、finetune、R&P等）的表现。右下角的线图则显示了在不同演示数量下，针对闲置盘子任务的各方法成功率的变化趋势。

零样本适应: 在所有任务的平均表现上，原始 $π_0$ -FAST-DROID 的成功率仅为 2.5%，因为它无法理解从未见过的物体（如宝可梦球）。而 RICL 在不更新任何参数的情况下，成功率提升到了 31.25%。
语言接地 (Language Grounding): 原始模型经常分不清物体，例如要拿“印度米饼盘”，它却去拿旁边的苹果。RICL 通过上下文中“拿起盘子”的示例，成功纠正了这一错误。
动作进化: 更有趣的是，在某些任务（如烤箱杠杆）中，RICL 表现出了超越检索演示的能力，它能结合自身潜力和上下文信息，产生比演示更精准的动作。

6.2. 消融实验：演示数量的影响

如 Figure 4 右下角所示，作者研究了演示数量对性能的影响：

最少需求: 至少需要 10 个左右的演示，RICL 才能开始展现出优势。
边际效益: 随着演示数量从 10 增加到 20，成功率持续攀升。

6.3. 完整数据表格

以下是根据论文内容整理的核心性能对比表：

方法 (Method)	性能指标 (Performance)
方法 (Method)	平均任务成功率 (%)	中间路标点完成率 (%)
$π_0$ -FAST-DROID (原始)	2.5	21.25
RICL- $π_0$ -FAST-DROID (本文)	31.25	83.75
$π_0$ -FAST-DROID (传统微调)	31.67	-
RICL- $π_0$ -FAST-DROID (RICL式微调)	61.67	-

7. 总结与思考

7.1. 结论总结

RICL 证明了：即使是一个已经训练好的、原本不具备上下文学习能力的机器人模型，也可以通过一个轻量级的“后置启动”阶段注入 ICL 能力。这使得普通用户只需展示几次动作，机器人就能“照猫画虎”地处理从未见过的物体和场景。

7.2. 局限性与未来工作

泛化边界: RICL 目前仍主要局限于拾取类任务。如果任务过于离群（如打网球），模型依然无法仅靠上下文学会。
对演示的依赖: 仍然需要人类手动操作机器人（Teleoperation）提供演示。未来如果能直接从人类视频中检索知识（Video-to-Robot RAG），实用性将大增。
推理开销: 上下文变长会导致计算量略微增加（约 1.33 倍），虽然在可接受范围内，但仍有优化空间。

7.3. 个人启发与批判

启发: 这篇论文巧妙地将大语言模型中成熟的 RAG 技术平移到了机器人领域。它告诉我们，与其追求一个能预知万物的完美模型，不如赋予模型“现场学习”的能力。
批判: 论文中的 $\lambda$ 参数对 $d$ （距离）非常敏感。在真实世界中，光照变化可能会导致 $d$ 波动很大，从而让插值层失效。系统在不同光照条件下的鲁棒性还需要进一步验证。此外，检索机制仅依赖 DINO 特征，可能无法捕捉到细微的物理接触关系，这在精密装配任务中可能是个隐患。

相似论文推荐

基于向量语义检索推荐的相关论文。

暂时没有找到相似论文。