Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols
TL;DR 精炼摘要
本文提出ViFailback框架,旨在解决机器人操作中的失败诊断和纠正问题,利用显式视觉符号提高注释效率。作者发布了包含58126个视觉问答对和5202条真实操作轨迹的ViFailback数据集,并通过构建ViFailback-8B模型,验证其在真实世界实验中的有效性,展示了其协助VLA模型从失败中恢复的能力。
摘要
Vision-Language-Action (VLA) models have recently achieved remarkable progress in robotic manipulation, yet they remain limited in failure diagnosis and learning from failures. Additionally, existing failure datasets are mostly generated programmatically in simulation, which limits their generalization to the real world. In light of these, we introduce ViFailback, a framework designed to diagnose robotic manipulation failures and provide both textual and visual correction guidance. Our framework utilizes explicit visual symbols to enhance annotation efficiency. We further release the ViFailback dataset, a large-scale collection of 58,126 Visual Question Answering (VQA) pairs along with their corresponding 5,202 real-world manipulation trajectories. Based on the dataset, we establish ViFailback-Bench, a benchmark of 11 fine-grained VQA tasks designed to assess the failure diagnosis and correction abilities of Vision-Language Models (VLMs), featuring ViFailback-Bench Lite for closed-ended and ViFailback-Bench Hard for open-ended evaluation. To demonstrate the effectiveness of our framework, we built the ViFailback-8B VLM, which not only achieves significant overall performance improvement on ViFailback-Bench but also generates visual symbols for corrective action guidance. Finally, by integrating ViFailback-8B with a VLA model, we conduct real-world robotic experiments demonstrating its ability to assist the VLA model in recovering from failures. Project Website: https://x1nyuzhou.github.io/vifailback.github.io/
思维导图
论文精读
中文精读
1. 论文基本信息
1.1. 标题
Diagnose, Correct, and Learn from Manipulation Failures via Visual Symbols (通过视觉符号诊断、纠正并从操作失败中学习)
1.2. 作者
Xianchao Zeng (1,2*), Xinyu Zhou (2,3*), Youcheng Li (1,2), Jiayou Shi (4), Tianle Li (4), Liangming Chen (3), Lei Ren (1†), Yong-Lu Li (2,4†)
- 隶属机构:
- 北京航空航天大学 (Beihang University)
- 上海期智研究院 (Shanghai Innovation Institute)
- 南方科技大学 (Southern University of Science and Technology)
- 上海交通大学 (Shanghai Jiao Tong University)
1.3. 发表期刊/会议
发表于 arXiv (预印本)。
- 发布时间 (UTC): 2025-12-02
- 状态: 处于预印本阶段,通常代表该领域的最新研究成果。
1.4. 摘要
视觉-语言-动作 (Vision-Language-Action, VLA) 模型在机器人操作领域取得了显著进展,但在失败诊断 (failure diagnosis) 和从失败中学习 (learning from failures) 方面仍存在局限。此外,现有的失败数据集大多是在模拟环境中通过程序生成的,限制了其在真实世界的泛化能力。 针对这些问题,本文提出了 ViFailback 框架,旨在诊断机器人操作失败并提供文本和视觉的纠正指导。该框架利用显式的视觉符号 (Visual Symbols) 来提高标注效率。 作者发布了 ViFailback 数据集,包含 58,126 个视觉问答 (VQA) 对以及对应的 5,202 条真实世界操作轨迹。基于此,建立了 ViFailback-Bench 基准,包含 11 个细粒度的 VQA 任务。 为了证明框架的有效性,作者构建了 ViFailback-8B 视觉语言模型 (VLM),该模型不仅在基准测试中表现出色,还能生成用于纠正动作指导的视觉符号。最后,通过将 ViFailback-8B 与 VLA 模型集成,在真实世界实验中展示了其协助 VLA 模型从失败中恢复的能力。
1.5. 原文链接
2. 整体概括
2.1. 研究背景与动机
-
核心问题: 机器人学习(特别是模仿学习)虽然能让机器人掌握多样的操作技能,但在面对分布外 (Out-of-Distribution, OOD) 场景时,机器人极易通过产生的动作导致任务失败。
-
现有挑战:
- 缺乏自我诊断能力: 目前的 Vision-Language-Action (VLA) 模型通常只是端到端地输出动作,当任务失败时,它们无法理解“哪里出错了”以及“为什么出错”。
- 数据鸿沟 (Sim-to-Real Gap): 现有的关于“失败”的研究数据大多是在模拟器中自动生成的。然而,模拟环境很难完美复刻真实世界的物理特性和视觉复杂性,导致这些数据训练出的模型难以在现实中应用。
- 标注困难: 在真实世界中收集失败数据很容易(机器人经常失败),但要标注这些数据(解释为什么失败、如何修正)非常耗时且昂贵,尤其是对于复杂的空间动作描述。
-
创新思路: 引入视觉符号 (Visual Symbols)(如箭头、十字准星等)作为人机交互的中间桥梁。这不仅降低了人类标注员的负担(画个箭头比写一段文字描述空间动作容易得多),还为机器人提供了更直观的视觉引导。
下图(原文 Figure 1)展示了 ViFailback 的核心理念:利用真实世界的失败数据,通过视觉符号辅助标注,训练模型进行诊断和纠正。
该图像是示意图,展示了ViFailback-8B VLM框架在机器人操控失败诊断与纠正中的应用,包含失败数据来源、故障检测、生成代码元素等步骤。
2.2. 核心贡献
- ViFailback 框架: 提出了一个可扩展的框架,用于高效地标注真实世界的机器人失败视频,包含文本解释和视觉符号。
- 大规模数据集: 发布了包含 5,202 条真实轨迹和 58,126 个高质量 VQA 对的数据集,涵盖 11 种不同的问题类型。
- ViFailback-Bench 基准: 建立了一个综合基准,分为 Lite(封闭式问题,侧重基础诊断)和 Hard(开放式问题,侧重推理和纠正)两个版本。
- ViFailback-8B 模型与实机验证: 微调出的模型在诊断和纠正能力上显著优于现有模型,并能作为“外部监督者”帮助真实的 VLA 机器人从失败中恢复。
3. 预备知识与相关工作
3.1. 基础概念
为了更好地理解本文,初学者需要掌握以下概念:
- VLA (Vision-Language-Action) 模型: 这是一种多模态模型,能够接收图像(Vision)和文本指令(Language),直接输出机器人的控制动作(Action)。例如 Google 的 RT-2 或本文提到的 。
- 模仿学习 (Imitation Learning): 机器人通过观察人类专家的演示(Demonstrations)来学习如何执行任务。本文的数据很多来自于人类远程操作(Teleoperation)的演示。
- OOD (Out-of-Distribution): 分布外数据。指模型在测试时遇到的场景(光照、物体位置、背景等)与训练数据有较大差异。这是导致机器人失败的主要原因。
- VQA (Visual Question Answering): 视觉问答。给定一张图片和一个问题,模型需要根据图片内容回答问题。本文将故障诊断建模为一系列 VQA 任务。
- CoT (Chain-of-Thought): 思维链。一种提示技术,鼓励模型在给出最终答案前,先生成一系列中间推理步骤。本文在解决复杂故障推理时使用了 CoT。
- Sim-to-Real Gap (虚实鸿沟):将在模拟环境中训练的策略迁移到真实世界时性能下降的现象。
3.2. 前人工作与差异
- 失败检测与恢复:
- 前人工作: 大多依赖模拟数据(如 injecting perturbations in simulation),或者仅提供文本形式的反馈。
- 本文差异: 直接利用真实世界 (Real-world) 的失败数据,并结合视觉符号提供更精确的空间指导。
- 视觉提示 (Visual Prompting):
- 前人工作: 一些工作(如 VIMA, RoVI)使用视觉标记(如边界框、箭头)来指示任务目标。
- 本文差异: 本文将视觉符号用于事后纠正 (Correction) 和故障恢复,而不仅仅是初始任务指令。并且,本文的模型能够自动生成这些视觉符号来指导机器人。
4. 方法论
4.1. 核心思想:视觉符号 (Visual Symbols)
文字在描述三维空间动作时往往含糊不清(例如“向左一点”究竟是多少?)。作者提出使用视觉符号直接在图像上绘制,以实现精确的指引。
作者设计了三类共 7 种视觉符号(如下图所示,参考原文 Figure 2 左侧):
- 运动符号 (Motion Symbols):
- 彩色直箭头 (Colored Straight Arrow): 颜色代表轴向(红=前后,绿=左右,蓝=上下),箭头方向代表正负。
- 半圆箭头 (Semi-circular Arrow): 表示末端执行器的旋转(顺时针/逆时针)。
- 空间关系符号 (Spatial Relation Symbols):
- 双十字准星 (Dual Crosshairs): 用虚线连接,表示两个物体需要对齐。
- 十字准星 (Crosshair): 标记正确的目标物体或位置。
- 状态符号 (State Symbols):
-
ON/OFF 标签: 表示夹爪的开/关状态。
-
禁止图标 (Prohibition Icon): 表示停止。
-
倒带图标 (Rewind Icon): 表示需要恢复到之前的状态。
下图(原文 Figure 2)展示了 ViFailback 的整体框架,包括视觉符号的设计、数据分布以及标注流程。
该图像是关于ViFailback框架的示意图,展示了58126个VQA对和5202条真实世界的操作轨迹。图中总结了数据收集、注释流程及ViFailback-Bench基准任务的设计,强调在操作失败诊断与纠正中的应用。此框架结合视觉符号提升效率并展示其在增强学习中的有效性。
-
4.2. 细粒度任务定义
ViFailback 将失败分析分解为两个核心组件:诊断 (Diagnosis) 和 纠正 (Correction)。
4.2.1. 失败诊断 (Failure Diagnosis)
包含五个子任务:
- 失败检测: 判断任务是否完成。
- 失败关键帧定位: 找出显示即将失败的关键帧。
- 失败子任务定位: 确定是在哪个子步骤开始出错的。
- 失败类型识别: 分为 4 类:
- 任务规划错误 (Task planning)
- 夹爪 6D 位姿错误 (Gripper 6d-pose)
- 夹爪状态错误 (Gripper state)
- 人为干预 (Human intervention)
- 失败原因推理: 解释根本原因。
4.2.2. 纠正动作指导 (Corrective Action Guidance)
包含三个层次:
- 低级文本指导: 具体的移动指令(如“向左移动夹爪”)。
- 高级文本指导: 战略性的建议(如“重新规划子任务”)。
- 视觉指导: 这是本文的核心。模型需要生成代码来绘制上述视觉符号,直接覆盖在关键帧上,告诉机器人如何移动。
4.3. 数据标注流程 (Data Annotation Pipeline)
为了解决标注困难的问题,作者设计了一个半自动化的流程(见上图 Figure 2 右侧):
- 第一阶段 (Stage 1): 标注员填写基本的语义信息,并通过 UI 控件完成失败检测和定位。
- 第二阶段 (Stage 2): 标注员在关键帧上绘制视觉符号(鼠标拖拽),并选择预定义的纠正动作。
- 第三阶段 (Stage 3): 利用大模型(Qwen3-VL-235B)基于前两阶段的符号和信息,自动生成详细的失败原因和高级文本指导,最后由人工校验。
- 分析: 这种“人画符号 -> AI 写文案”的流程极大地提高了标注复杂推理数据的效率。
4.4. 模型构建 (ViFailback-8B)
作者基于 Qwen3-VL-8B 模型进行微调。输入是机器人的视频帧和问题(Prompt),输出是诊断结果、文本建议以及绘制视觉符号的代码参数(如箭头的起点、终点坐标)。
5. 实验设置
5.1. 数据集
-
来源: 使用 ALOHA 双臂机器人平台收集。
-
规模:
- 轨迹: 5,202 条真实世界轨迹(其中 4,545 条是失败轨迹)。
- 任务数: 100 个不同的操作任务(如倒水、抓取、放置等)。
- VQA 对: 58,126 个。
-
构成: 包含了人类远程操作的数据和 模型(一个强大的 VLA 模型)执行失败的数据。
下图(原文 Figure 12)展示了数据集中的一个样本示例,包含了低级文本指导和视觉符号指导(CoT 形式)。
该图像是示意图,展示了在机器手抓取操作中发生故障的诊断与修复过程。图中提供了低级别文本和视觉指导,包含故障类型识别和建议的修复操作,关键词包括 'Move the left gripper' 和 'Draw Straight Arrow'。
5.2. 评估基准 (ViFailback-Bench)
作者设计了两个难度的基准测试:
- ViFailback-Bench Lite (封闭式): 侧重于选择题。评估模型的基础诊断能力(检测、定位、分类)和基于给定关键帧的简单纠正。
- 评估指标: 准确率 (Accuracy)。计算公式为: 其中 是回答正确的样本数, 是总样本数。
- ViFailback-Bench Hard (开放式): 侧重于生成题。要求模型进行多步推理(CoT),并生成具体的纠正指导。
- 评估指标: 由于答案是开放文本,作者使用 GPT-4o 作为裁判进行打分。评分维度包括:
- 语义相似度 (Semantic Similarity)
- 内容完整性 (Content Completeness)
- 功能等价性 (Functional Equivalence) 最终得分为这三个维度的平均值。
- 评估指标: 由于答案是开放文本,作者使用 GPT-4o 作为裁判进行打分。评分维度包括:
下图(原文 Figure 3)展示了 Lite 和 Hard 两种设置下的任务示例。
该图像是示意图,展示了ViFailback-Bench中关于失败诊断和纠正指导的内容。图中包括失败检测、类型识别、子任务定位及低、高级别的回避和纠正措施,目标是提升机器人操作的有效性。
5.3. 对比基线
实验对比了 16 个模型,分为三类:
- 通用开源模型: Qwen2.5-VL 系列, Qwen3-VL 系列, InternVL3 系列。
- 具身智能模型 (Embodied Models): RoboBrain2.0 系列, Cosmos-Reason1-7B。
- 通用闭源模型: GPT-4o, Gemini-2.5-Pro。
6. 实验结果与分析
6.1. 核心结果分析:基准测试
下表(原文 Table 1)展示了各模型在 ViFailback-Bench 上的总体表现。
Table 1. Comparison of overall model performance on ViFailback-Bench. (Accuracy %)
| Model | Lite | Hard | Average |
|---|---|---|---|
| General Open-Source Models | |||
| Qwen2.5-VL-3B-Instruct | 38.10 | 22.10 | 30.81 |
| Qwen2.5-VL-7B-Instruct | 42.41 | 19.26 | 31.87 |
| Qwen2.5-VL-32B-Instruct | 46.30 | 32.50 | 40.02 |
| Qwen2.5-VL-72B-Instruct | 50.61 | 36.56 | 44.21 |
| Qwen3-VL-2B-Instruct | 35.16 | 20.28 | 28.39 |
| Qwen3-VL-4B-Instruct | 41.11 | 33.37 | 37.59 |
| Qwen3-VL-8B-Instruct | 36.56 | 33.04 | 35.92 |
| Qwen3-VL-32B-Instruct | 47.79 | 35.23 | 42.07 |
| InternVL3-8B | 36.48 | 29.82 | 33.45 |
| InternVL3-78B | 42.81 | 30.77 | 37.33 |
| Embodied Models | |||
| RoboBrain2.0-3B | 40.39 | 21.21 | 31.65 |
| RoboBrain2.0-7B | 40.62 | 19.15 | 30.84 |
| RoboBrain2.0-32B | 49.92 | 29.22 | 40.50 |
| Cosmos-Reason1-7B | 38.06 | 28.60 | 33.75 |
| General Closed-Source Models | |||
| GPT-4o | 48.21 | 40.00 | 44.47 |
| Gemini-2.5-Pro | 54.64 | 32.45 | 44.54 |
| Ours | |||
| ViFailback-8B | 93.70 | 72.64 | 84.11 |
分析:
- 现有模型表现不佳: 即便是最强的 GPT-4o 和 Gemini-2.5-Pro,平均准确率也仅在 44% 左右。这说明通用的 VLM 即使在大量数据上训练过,也很难直接处理复杂的机器人失败诊断任务。
- Hard 模式更难: 所有模型在 Hard 模式(开放式生成)下的表现都显著低于 Lite 模式。
- ViFailback-8B 的统治力: 经过在 ViFailback 数据集上的微调,ViFailback-8B 在所有指标上都大幅超越了基线模型。Lite 模式准确率达到 93.70%,Hard 模式达到 72.64%,证明了该数据集对于激发模型诊断能力的有效性。
6.2. 详细能力分析 (Hard Benchmark)
下表(原文 Table 3)展示了在 Hard 基准上的细分任务表现。
Table 3. Comparison of model performance on ViFailback-Bench Hard. (Accuracy %)
| Model | Low-level Avoidance (CoT) | Low-level Correction (CoT) | Failure Reason | High-level Avoidance | High-level Correction | Average |
|---|---|---|---|---|---|---|
| General Open-Source Models | ||||||
| Qwen2.5-VL-3B-Instruct | 3.62 | 7.88 | 31.16 | 31.94 | 37.09 | 22.10 |
| Qwen2.5-VL-7B-Instruct | 12.77 | 13.64 | 33.10 | 18.95 | 18.28 | 19.26 |
| Qwen2.5-VL-32B-Instruct | 9.91 | 9.67 | 51.92 | 44.22 | 48.47 | 32.50 |
| Qwen2.5-VL-72B-Instruct | 13.05 | 18.04 | 54.26 | 47.78 | 51.22 | 36.56 |
| Qwen3-VL-2B-Instruct | 0.00 | 2.63 | 31.16 | 31.94 | 37.09 | 20.28 |
| Qwen3-VL-4B-Instruct | 11.23 | 13.94 | 57.01 | 44.83 | 41.37 | 33.37 |
| Qwen3-VL-8B-Instruct | 12.77 | 16.45 | 51.98 | 43.47 | 41.89 | 33.04 |
| Qwen3-VL-32B-Instruct | 14.11 | 19.34 | 60.53 | 40.44 | 43.09 | 35.23 |
| InternVL3-8B | 5.23 | 5.51 | 44.01 | 47.32 | 48.85 | 29.82 |
| InternVL3-78B | 8.39 | 11.45 | 39.30 | 46.64 | 49.63 | 30.77 |
| Embodied Models | ||||||
| RoboBrain2.0-3B | 6.47 | 2.68 | 40.81 | 27.19 | 30.11 | 21.21 |
| RoboBrain2.0-7B | 4.80 | 1.18 | 35.07 | 26.02 | 29.89 | 19.15 |
| RoboBrain2.0-32B | 3.55 | 8.57 | 52.36 | 38.37 | 44.95 | 29.22 |
| Cosmos-Reason1-7B | 9.20 | 8.30 | 36.27 | 44.02 | 46.69 | 28.60 |
| General Closed-Source Models | ||||||
| GPT-4o | 18.93 | 18.86 | 59.28 | 49.53 | 54.96 | 40.00 |
| Gemini-2.5-Pro | 13.04 | 26.90 | 53.74 | 21.85 | 47.62 | 32.45 |
| Ours | ||||||
| ViFailback-8B | 47.95 | 65.33 | 83.97 | 85.36 | 81.79 | 72.64 |
分析:
- 低级控制最难: "Low-level Avoidance/Correction (CoT)" 任务(即生成具体的移动指令)对所有基线模型来说都是最难的,GPT-4o 也只有不到 20% 的准确率。这说明通用模型缺乏对机器人细粒度动作的理解。
- ViFailback 的突破: 本文模型在这些低级控制任务上取得了 47.95% 和 65.33% 的成绩,证明了其通过视觉符号学习到了精确的空间操作逻辑。
6.3. 数据规模影响
下图(原文 Figure 4)展示了随着训练数据量增加,模型性能的变化趋势。
该图像是一个柱状图,展示了在不同轨迹数量下,针对故障检测、故障关键帧定位、故障子任务定位等任务的准确率。数据分为零-shot 和不同数量的轨迹,从而对比各方法的性能表现。
- 分析: 随着轨迹数量从 1,200 增加到 4,702,各项任务的性能均呈上升趋势。特别是“生成视觉符号代码 (Generating Visual Symbols' Codes)”的能力,随着数据量增加稳步提升,表明该方法具有良好的可扩展性。
6.4. 真实世界应用
作者将 ViFailback-8B 集成到真实的机器人系统中,作为 模型的监督者。
- 工作流: 机器人执行任务 -> ViFailback-8B 监控 -> 发现失败 -> ViFailback-8B 生成视觉符号和文本指导 -> 机器人根据指导修正。
- 两种执行方法:
-
VSF (Visual Symbols Following): 微调 让其学会直接“看懂”并跟随视觉符号。
-
PMC (Point-based Motion Control): 使用传统控制器移动到符号指示的坐标点。
下表(原文 Table 4)展示了在三个未见过的真实任务上的成功率对比。
-
Table 4. Success rates comparison across different methods on three tasks.
| Method | PlaceOne | PlaceTwo | Pull&Place | Average |
|---|---|---|---|---|
| w/o ViFailback Correction (无纠正) | ||||
| π0.5 (base & symbol) | 14/21 | 9/21 | 10/21 | 52.4% |
| π0.5 (base) | 13/21 | 9/21 | 10/21 | 50.8% |
| w/ ViFailback Correction (有纠正) | ||||
| π0.5 (base & symbol) + VSF | 18/21 | 13/21 | 15/21 | 73.0% |
| π0.5 (base) + PMC | 19/21 | 16/21 | 12/21 | 74.6% |
结果: 引入 ViFailback-8B 进行纠正后,任务成功率从约 50% 显著提升至 73%-74%。这证明了该模型不仅能“纸上谈兵”做选择题,还能真正在物理世界中帮助机器人摆脱困境。
下图(原文 Figure 5)展示了真实世界实验中机器人成功恢复的画面。
该图像是示意图,展示了机器人在三种代表性操作任务(PlaceOne、PlaceTwo和Pull&Place)中,在ViFailback-8B生成的视觉符号指导下,成功从失败中恢复的过程。每个任务包含失败关键帧及其修正后的结果。
7. 总结与思考
7.1. 结论总结
本文针对机器人操作中“失败诊断难、数据获取难”的问题,提出了 ViFailback 框架。
- 核心创新: 引入视觉符号作为中间表征,既解决了人类标注复杂空间动作的效率问题,又为模型提供了精确的视觉引导信号。
- 资源贡献: 贡献了包含 5k+ 真实轨迹和 58k+ VQA 对的高质量数据集及基准。
- 模型效果: 微调后的模型在诊断和纠正能力上远超 GPT-4o 等通用模型,并在真机实验中显著提升了任务成功率。
7.2. 局限性与未来工作
- 视觉局限: 目前仅依赖视觉信息。在某些涉及接触力(如插入、擦拭)的任务中,仅靠视觉可能无法完全诊断失败原因(例如卡住是因为摩擦力过大)。未来可以引入触觉或力反馈数据。
- 维度限制: 目前的视觉符号是绘制在 2D 图像上的,对于复杂的 6-DoF(六自由度)3D 空间动作,2D 符号可能存在歧义。
- 动作分布: 作者提到目前主要关注从视频中学习纠正,未来可以进一步利用失败轨迹中的动作分布信息。
7.3. 个人启发与批判
- 启发: “视觉符号”是一个非常聪明的设计。在具身智能中,直接从自然语言到动作(Text-to-Action)往往存在鸿沟(Grounding 问题)。视觉符号相当于在图像空间中建立了一个“锚点”,将抽象的语言指令(“向左移”)具体化为像素级的几何约束(“移到像素 (x,y)”)。这种Visual Prompting 的思路在人机协作和数据标注中具有巨大的潜力。
- 批判: 虽然 PMC (Point-based Motion Control) 方法在实验中表现略好,但它依赖于传统的运动规划器,这在一定程度上规避了端到端模型的控制难题。未来如果能让 VLA 模型更强地直接理解视觉符号并输出动作(即 VSF 方法的改进),将更具通用性。此外,数据集规模(5k 轨迹)相比于通用视觉数据集仍然较小,这可能限制了模型的泛化边界。
相似论文推荐
基于向量语义检索推荐的相关论文。